In [1]:
from generator import *
Currently there are 2167 out of 4101
Currently there are 2199 out of 4101
In [2]:
tokens_remaining = to_check() # gets list of tokens to check
def update_tokens_remaining():
global tokens_remaining
tokens_remaining = to_check()
def ends_with(s):
out = []
for t in tokens_remaining:
i = 0-len(s)
if t[i:]==s:
out.append(t)
return out
def print_ends_with(s):
tokens =ends_with(s)
print ', '.join(ends_with(s))
def token_search(s):
return [t for t in tokens_remaining if re.search(s,t)]
def mark_okay_lemmas(are_okay):
assert type(are_okay)==list
for t in are_okay:
okay_lemmas[t] = lemmas[t]
In [13]:
print_ends_with('uu')
;xuu, aa;nsuu, aab-juu, aab-ruu, aabruu, aahuu, aarzuu, abruu, baazuu, bad-;xuu, be-aabruu, buu, dast-o-baazuu, diivaar-juu, fitnah-;xuu, guftaguu, guftguu, guluu, jaam-o-subuu, just-juu, justajuu, kisuu, lahuu, lakhna))uu, mushk-buu, muu, numuu, pahluu, pai;gaarah-juu, qad-o-gesuu, rafuu, ruu, ruubaruu, shiishah-o-qada;h-o-kuuzah-o-sabuu, sust-ruu, suu, tund-;xuu, tuu, zaanuu
In [14]:
mark_okay_lemmas(ends_with('uu'))
In [15]:
update_files()
In [16]:
print_stats()
Currently there are 274 out of 4101
In [26]:
ends_with(":t")
Out[26]:
[';gala:t',
';xa:t',
'bisaa:t',
'faqa:t',
'i;htiyaa:t',
'i;xtilaa:t',
'nashaa:t',
'qa:t',
'rab:t',
'tamkiin-o-.zab:t',
'ulfa:t']
In [25]:
mark_okay_lemmas(ends_with(':t'))
update_files()
print_stats()
Currently there are 285 out of 4101
In [33]:
token_search("(\.s|\.z|\:t|:z)$")
Out[33]:
[';gala:t',
';gara.z',
';xa:t',
';xaa.s',
'bisaa:t',
'fai.z',
'faqa:t',
'far.z',
'i;htiyaa:t',
'i;xlaa.s',
'i;xtilaa:t',
'kaa;ga.z',
'laf:z',
'mara.z',
'nashaa:t',
'qa:t',
'qar.z',
'rab:t',
'sha;x.s',
'tamkiin-o-.zab:t',
'ulfa:t',
'vaa((i:z']
In [36]:
mark_okay_lemmas(token_search("(\.s|\.z|\:t|:z)$"))
print_stats()
update_files()
Currently there are 296 out of 4101
In [41]:
mark_okay_lemmas(token_search("(\.s|\.z|:t|:z)-e$"))
In [19]:
ends_with("'haa-e")
Out[19]:
[":turrah'haa-e",
";halqah'haa-e",
";xandah'haa-e",
"andeshah'haa-e",
"chashmak'haa-e",
"dil'haa-e",
"ganj'haa-e",
"gul'haa-e",
"jalvah'haa-e",
"kaavish'haa-e",
"kashaakash'haa-e",
"la;z;zat'haa-e",
"mizhah'haa-e",
"na:zar'haa-e",
"na;gmah'haa-e",
"naalah'haa-e",
"navaazish'haa-e",
"nus;xah'haa-e",
"paarah'haa-e",
"pursish'haa-e",
"raaz'haa-e",
"shab'haa-e",
"shikaayat'haa-e",
"ulfa:t'haa-e"]
In [23]:
to_add = []
for t in ends_with("'haa-e"):
singular=t[0:-6]
lemmas[t] = [singular]
to_add.append(t)
if singular in tokens_remaining:
lemmas[singular] = [singular]
to_add.append(singular)
if singular+'-e' in tokens_remaining:
lemmas[singular+'-e'] = [singular]
to_add.append(singular+'-e')
for t in to_add: print t,lemmas[t]
:turrah'haa-e [':turrah']
;halqah'haa-e [';halqah']
;halqah [';halqah']
;halqah-e [';halqah']
;xandah'haa-e [';xandah']
;xandah [';xandah']
;xandah-e [';xandah']
andeshah'haa-e ['andeshah']
andeshah ['andeshah']
chashmak'haa-e ['chashmak']
dil'haa-e ['dil']
dil ['dil']
dil-e ['dil']
ganj'haa-e ['ganj']
gul'haa-e ['gul']
gul ['gul']
gul-e ['gul']
jalvah'haa-e ['jalvah']
jalvah ['jalvah']
jalvah-e ['jalvah']
kaavish'haa-e ['kaavish']
kaavish ['kaavish']
kaavish-e ['kaavish']
kashaakash'haa-e ['kashaakash']
kashaakash ['kashaakash']
kashaakash-e ['kashaakash']
la;z;zat'haa-e ['la;z;zat']
la;z;zat ['la;z;zat']
la;z;zat-e ['la;z;zat']
mizhah'haa-e ['mizhah']
mizhah ['mizhah']
mizhah-e ['mizhah']
na:zar'haa-e ['na:zar']
na:zar ['na:zar']
na;gmah'haa-e ['na;gmah']
na;gmah ['na;gmah']
na;gmah-e ['na;gmah']
naalah'haa-e ['naalah']
naalah ['naalah']
naalah-e ['naalah']
navaazish'haa-e ['navaazish']
navaazish ['navaazish']
nus;xah'haa-e ['nus;xah']
nus;xah-e ['nus;xah']
paarah'haa-e ['paarah']
paarah-e ['paarah']
pursish'haa-e ['pursish']
pursish ['pursish']
pursish-e ['pursish']
raaz'haa-e ['raaz']
raaz ['raaz']
raaz-e ['raaz']
shab'haa-e ['shab']
shab ['shab']
shab-e ['shab']
shikaayat'haa-e ['shikaayat']
shikaayat ['shikaayat']
shikaayat-e ['shikaayat']
ulfa:t'haa-e ['ulfa:t']
In [24]:
mark_okay_lemmas(to_add)
In [28]:
print_stats()
update_files()
update_tokens_remaining()
Currently there are 355 out of 4101
In [40]:
ii_e = ends_with('ii-e')
ii_e
Out[40]:
[':tuu:tii-e',
';xaanah-viiraa;n-saazii-e',
';xizaanii-e',
';xuubii-e',
';xvud-daarii-e',
'aa))inah-daarii-e',
'aashtii-e',
'aazaadii-e',
'aazurdagii-e',
'afsurdagii-e',
'arzaanii-e',
'baa;g-baanii-e',
'baadah-noshii-e',
'bad-aamozii-e',
'bad-gumaanii-e',
'bad-mastii-e',
'bandagii-e',
'be-;xvudii-e',
'be-kaarii-e',
'be-mihrii-e',
'be-rab:tii-e',
'be-raunaqii-e',
'begaanagii-e',
'bekasii-e',
'berab:tii-e',
'biimaarii-e',
'chaarah-saazii-e',
'chaman-:taraazii-e',
'chaman-o-;xuubii-e',
'daraaz-dastii-e',
'diivaanagii-e',
'dil-farebii-e',
'dushvaarii-e',
'duurii-e',
'faryaadii-e',
'fasaanah-;xvaanii-e',
'garmii-e',
'giraa;n-baarii-e',
'giraa;n-maayagii-e',
'giriftaarii-e',
'gul-afshaanii-e',
'gustaa;xii-e',
'ham-naamii-e',
'hastii-e',
'jaa;n-gudaazii-e',
'jaa;n-kaahii-e',
'jaavidaanii-e',
'jalvah-rezii-e',
'ka;srat-aaraa))ii-e',
'kishtii-e',
'korii-e',
'kotaahii-e',
'ma((zuulii-e',
'ma;hramii-e',
'ma;hruumii-e',
'mu;gannii-e',
'naa-kaamii-e',
'naa-saazii-e',
'naa-tamaamii-e',
'naa-tavaanii-e',
'naumiidii-e',
'niko-naamii-e',
'paa-bastagii-e',
'par-fishaanii-e',
'parastaarii-e',
'pardah-daarii-e',
'pareshaanii-e',
'pusht-garmii-e',
'ra((naa))ii-e',
'ravaanii-e',
'ravish-o-mastii-e',
'rusvaa))ii-e',
'sa((ii-e',
'saaqii-e',
'sho;xii-e',
'siilii-e',
'siyah-mastii-e',
'taariikii-e',
'tal;xii-e',
'talaafii-e',
'tamaashaa))ii-e',
'tangii-e',
'tiryaakii-e',
'tishnagii-e',
'tundii-e',
'tunuk-:zarfii-e',
'vaadii-e',
'varaq-gardaanii-e',
'zabaanii-e',
'zabuunii-e',
'zindaanii-e',
'zindagaanii-e']
In [43]:
to_add = []
for x in ii_e:
ii_e_root = x[:-2]
lemmas[x] = [ii_e_root]
to_add.append(x)
if ii_e_root in tokens_remaining:
lemmas[ii_e_root] = [ii_e_root]
to_add.append(ii_e_root)
to_add,len(to_add)
Out[43]:
([':tuu:tii-e',
':tuu:tii',
';xaanah-viiraa;n-saazii-e',
';xizaanii-e',
';xuubii-e',
';xvud-daarii-e',
'aa))inah-daarii-e',
'aashtii-e',
'aazaadii-e',
'aazaadii',
'aazurdagii-e',
'afsurdagii-e',
'afsurdagii',
'arzaanii-e',
'arzaanii',
'baa;g-baanii-e',
'baadah-noshii-e',
'baadah-noshii',
'bad-aamozii-e',
'bad-gumaanii-e',
'bad-gumaanii',
'bad-mastii-e',
'bandagii-e',
'bandagii',
'be-;xvudii-e',
'be-;xvudii',
'be-kaarii-e',
'be-mihrii-e',
'be-rab:tii-e',
'be-raunaqii-e',
'be-raunaqii',
'begaanagii-e',
'begaanagii',
'bekasii-e',
'bekasii',
'berab:tii-e',
'biimaarii-e',
'chaarah-saazii-e',
'chaman-:taraazii-e',
'chaman-o-;xuubii-e',
'daraaz-dastii-e',
'diivaanagii-e',
'diivaanagii',
'dil-farebii-e',
'dushvaarii-e',
'duurii-e',
'faryaadii-e',
'faryaadii',
'fasaanah-;xvaanii-e',
'garmii-e',
'garmii',
'giraa;n-baarii-e',
'giraa;n-maayagii-e',
'giriftaarii-e',
'giriftaarii',
'gul-afshaanii-e',
'gustaa;xii-e',
'gustaa;xii',
'ham-naamii-e',
'hastii-e',
'hastii',
'jaa;n-gudaazii-e',
'jaa;n-kaahii-e',
'jaavidaanii-e',
'jalvah-rezii-e',
'ka;srat-aaraa))ii-e',
'kishtii-e',
'korii-e',
'kotaahii-e',
'ma((zuulii-e',
'ma;hramii-e',
'ma;hruumii-e',
'mu;gannii-e',
'naa-kaamii-e',
'naa-kaamii',
'naa-saazii-e',
'naa-tamaamii-e',
'naa-tamaamii',
'naa-tavaanii-e',
'naa-tavaanii',
'naumiidii-e',
'naumiidii',
'niko-naamii-e',
'paa-bastagii-e',
'par-fishaanii-e',
'par-fishaanii',
'parastaarii-e',
'pardah-daarii-e',
'pardah-daarii',
'pareshaanii-e',
'pareshaanii',
'pusht-garmii-e',
'ra((naa))ii-e',
'ravaanii-e',
'ravaanii',
'ravish-o-mastii-e',
'rusvaa))ii-e',
'rusvaa))ii',
'sa((ii-e',
'saaqii-e',
'saaqii',
'sho;xii-e',
'sho;xii',
'siilii-e',
'siyah-mastii-e',
'taariikii-e',
'tal;xii-e',
'talaafii-e',
'talaafii',
'tamaashaa))ii-e',
'tamaashaa))ii',
'tangii-e',
'tiryaakii-e',
'tishnagii-e',
'tundii-e',
'tunuk-:zarfii-e',
'vaadii-e',
'varaq-gardaanii-e',
'zabaanii-e',
'zabaanii',
'zabuunii-e',
'zindaanii-e',
'zindagaanii-e',
'zindagaanii'],
124)
In [44]:
mark_okay_lemmas(to_add)
In [46]:
print_stats()
Currently there are 479 out of 4101
In [47]:
update_files()
In [48]:
print_stats()
Currently there are 479 out of 4101
In [51]:
update_tokens_remaining()
In [58]:
ends_with('))uu;n')
Out[58]:
['aa))uu;n',
'bataa))uu;n',
'jaa))uu;n',
'khaa))uu;n',
'laa))uu;n',
'paa))uu;n',
'ro))uu;n',
'sunaa))uu;n']
In [6]:
ends_with('haa-e')
Out[6]:
[';gala:tiihaa-e',
';gamhaa-e',
'aavaaragiihaa-e',
'bahaa-e',
'bekasii-haa-e',
'chashmhaa-e',
'guharhaa-e',
'gul-fishaaniihaa-e',
'gulhaa-e',
'mihrbaaniihaa-e',
'navaahaa-e',
'sa;xt-jaaniihaa-e',
'saadagiihaa-e',
'sitamhaa-e',
'ta;gaafulhaa-e',
'tabassumhaa-e',
'tamaashaa-e',
'va;hshat-;xiraamiihaa-e',
'zabaa;nhaa-e']
In [4]:
[x[:-5] for x in ends_with('haa-e') if x in tokens_remaining]
Out[4]:
[';gala:tii',
';gam',
'aavaaragii',
'ba',
'bekasii-',
'chashm',
'guhar',
'gul-fishaanii',
'gul',
'mihrbaanii',
'navaa',
'sa;xt-jaanii',
'saadagii',
'sitam',
'ta;gaaful',
'tabassum',
'tamaas',
'va;hshat-;xiraamii',
'zabaa;n']
In [3]:
ends_with('haa-e')
Out[3]:
[]
In [3]:
to_add=[]
for x in [x[:-2] for x in ends_with('-e') if x[:-2] in tokens_remaining]:
# lemmas[x] = [x]
lemmas[x+'-e'] = lemmas[x]
to_add.append(x)
to_add.append(x+'-e')
print x, lemmas[x]
;gam-;xvaar [';gam-;xvaar']
;gam [';gam']
;gamzah [';gamzah']
;gubaar [';gubaar']
;gunchah [';gunchah']
;guruur [';guruur']
;ha.zrat [';ha.zrat']
;haa.sil [';haa.sil']
;haajat [';haajat']
;haal [';haal']
;hairat [';hairat']
;haq [';haq']
;haqiiqat [';haqiiqat']
;harf [';harf']
;hariif [';hariif']
;hasrat [';hasrat']
;hasrat-parast [';hasrat-parast']
;hijaab [';hijaab']
;hinaa [';hinaa']
;hu.zuur [';hu.zuur']
;husn [';husn']
;savaab [';savaab']
;xaa:tir [';xaa:tir']
;xaak [';xaak']
;xaamah [';xaamah']
;xaar [';xaar']
;xalish [';xalish']
;xalvat [';xalvat']
;xam [';xam']
;xaraab [';xaraab']
;xariidaar [';xariidaar']
;xas [';xas']
;xas-o-;xaashaak [';xas-o-;xaashaak', ';xas', ';xaashaak']
;xastah [';xastah']
;xauf [';xauf']
;xayaal [';xayaal']
;xiraam [';xiraam']
;xirman [';xirman']
;xum [';xum']
;xumaar [';xumaar']
;xuu;n-baar [';xuu;n-baar']
;xvaab [';xvaab']
;xvurshiid [';xvurshiid']
;zarrah [';zarrah']
;zauq [';zauq']
a.sl ['a.sl']
a;hvaal ['a;hvaal']
a;sar ['a;sar']
aa))iinah ['aa))iinah']
aa))inah ['aa))inah']
aab ['aab']
aab-o-havaa ['aab-o-havaa', 'aab', 'havaa']
aabaad ['aabaad']
aafat ['aafat']
aaftaab ['aaftaab']
aah ['aah']
aamad ['aamad']
aaraa))ish ['aaraa))ish']
aashnaa ['aashnaa']
aatish ['aatish']
aazaar ['aazaar']
abr ['abr']
adaa ['adaa']
ajzaa ['ajzaa']
alam ['alam']
andaaz ['andaaz']
angusht ['angusht']
anjuman ['anjuman']
asad ['asad']
ashk ['ashk']
auj ['auj']
ba((d ['ba((d']
ba;gair ['ba;gair']
ba;hr ['ba;hr']
ba;xyah ['ba;xyah']
baa((i;s ['baa((i;s']
baa;g ['baa;g']
baab ['baab']
baad ['baad']
baadah ['baadah']
baalish ['baalish']
baar ['baar']
baazaar ['baazaar']
bahaar ['bahaar']
bajaa ['bajaa']
balaa ['balaa']
band ['band']
barq ['barq']
bayaabaa;n-navard ['bayaabaa;n-navard']
bayaan ['bayaan']
bazm ['bazm']
be-;hijaab ['be-;hijaab']
be-daad ['be-daad']
be-i;xtiyaar ['be-i;xtiyaar']
bedaad ['bedaad']
biim ['biim']
biimaar ['biimaar']
bistar ['bistar']
bulbul ['bulbul']
but ['but']
buud ['buud']
chaak ['chaak']
char;x ['char;x']
chashm ['chashm']
chiraa;g ['chiraa;g']
da((v;aa ['da((v;aa']
daa;g ['daa;g']
daam ['daam']
daftar ['daftar']
dahan ['dahan']
daliil ['daliil']
dam ['dam']
dar ['dar']
dar-o-diivaar ['dar-o-diivaar', 'dar', 'diivaar']
dard ['dard']
daryaa ['daryaa']
dashnah ['dashnah']
dasht ['dasht']
dast ['dast']
daur ['daur']
diidaar ['diidaar']
diidah ['diidah']
diivaar ['diivaar']
dimaa;g ['dimaa;g']
dushman ['dushman']
duud ['duud']
fa.sl ['fa.sl']
falak ['falak']
fard ['fard']
fareb ['fareb']
farq ['farq']
farsh ['farsh']
faryaad ['faryaad']
fikr ['fikr']
firaaq ['firaaq']
fitnah ['fitnah']
fur.sat ['fur.sat']
furo;g ['furo;g']
gadaa ['gadaa']
gard ['gard']
gardan ['gardan']
gardish ['gardish']
garm ['garm']
gauhar ['gauhar']
gavaah ['gavaah']
girah ['girah']
giriftaar ['giriftaar']
giryah ['giryah']
gor ['gor']
gosh ['gosh']
guftaar ['guftaar']
gul-chiin ['gul-chiin']
gul-farosh ['gul-farosh']
gumaan ['gumaan']
gunjaa))ish ['gunjaa))ish']
halaak ['halaak']
hangaamah ['hangaamah']
havaa ['havaa']
havas ['havas']
hijr ['hijr']
himmat ['himmat']
i((tibaar ['i((tibaar']
i((timaad ['i((timaad']
i.z:tiraab ['i.z:tiraab']
idraak ['idraak']
ijaazat ['ijaazat']
iltifaat ['iltifaat']
inti:zaar ['inti:zaar']
iqliim ['iqliim']
isti;gnaa ['isti;gnaa']
jaa ['jaa']
jaadah ['jaadah']
jaam ['jaam']
jaan ['jaan']
jahaan ['jahaan']
jam((-o-;xarj ['jam((-o-;xarj', 'jam((', ';xarj']
jamaal ['jamaal']
jannat ['jannat']
jaraa;hat ['jaraa;hat']
jauhar ['jauhar']
javaahir ['javaahir']
jeb ['jeb']
jigar ['jigar']
josh ['josh']
junbish ['junbish']
juuyaa ['juuyaa']
juzv ['juzv']
kaa;ga;z ['kaa;ga;z']
kaakul ['kaakul']
kaam ['kaam']
kaar-o-baar ['kaar-o-baar', 'kaar', 'baar']
kaasah ['kaasah']
kamaal ['kamaal']
kashmakash ['kashmakash']
kisht ['kisht']
koh ['koh']
kushtah ['kushtah']
lab ['lab']
libaas ['libaas']
lu:tf ['lu:tf']
ma((shuuq ['ma((shuuq']
ma:tlab ['ma:tlab']
ma;hruum ['ma;hruum']
ma;hshar ['ma;hshar']
ma;hv ['ma;hv']
maah ['maah']
maana(( ['maana((']
maanind ['maanind']
maatam ['maatam']
mad;h ['mad;h']
mah ['mah']
mai-;xaanah ['mai-;xaanah']
mai ['mai']
mai-kadah ['mai-kadah']
maktab ['maktab']
maq.sad ['maq.sad']
maqaam ['maqaam']
marg ['marg']
mast ['mast']
mauj ['mauj']
mausam ['mausam']
mihr ['mihr']
miinaa ['miinaa']
minnat ['minnat']
mu.siibat ['mu.siibat']
mu:trib ['mu:trib']
mudda((aa ['mudda((aa']
muft ['muft']
muhr ['muhr']
mur;g ['mur;g']
mushaahadah ['mushaahadah']
mushkil ['mushkil']
mushtaaq ['mushtaaq']
muzhdah ['muzhdah']
na:z:zaarah ['na:z:zaarah']
na:zaarah ['na:zaarah']
na;zr ['na;zr']
naam ['naam']
naamah ['naamah']
naamuus ['naamuus']
naaz ['naaz']
nabard ['nabard']
nadiim ['nadiim']
nafas ['nafas']
nairang ['nairang']
naqaab ['naqaab']
naqd ['naqd']
naqsh ['naqsh']
nashshah ['nashshah']
nasiim ['nasiim']
nigaah ['nigaah']
nigah ['nigah']
nishaan ['nishaan']
niyaaz ['niyaaz']
nuur ['nuur']
paa ['paa']
paas ['paas']
pai;gaam ['pai;gaam']
paikaan ['paikaan']
par ['par']
pardah ['pardah']
partav ['partav']
parvaaz ['parvaaz']
pech-o-taab ['pech-o-taab', 'pech', 'taab']
piir ['piir']
punbah ['punbah']
qa:trah ['qa:trah']
qabaa ['qabaa']
qad ['qad']
qadr ['qadr']
qafas ['qafas']
qaid ['qaid']
qalam ['qalam']
qatl-gah ['qatl-gah']
qiblah ['qiblah']
qiimat ['qiimat']
qudrat ['qudrat']
raah ['raah']
raftaar ['raftaar']
raftah ['raftah']
rag ['rag']
rah ['rah']
rah-guzar ['rah-guzar']
rahguzaar ['rahguzaar']
rahzan ['rahzan']
rang ['rang']
ranj ['ranj']
raqiib ['raqiib']
reshah ['reshah']
rishtah ['rishtah']
rizq ['rizq']
roz ['roz']
ru;x ['ru;x']
ru;x.sat ['ru;x.sat']
ru;xsaar ['ru;xsaar']
rusvaa ['rusvaa']
ruu;h ['ruu;h']
sa:tvat ['sa:tvat']
saa;gar ['saa;gar']
saa;hil ['saa;hil']
saamaan ['saamaan']
saayah ['saayah']
saaz ['saaz']
sabaq ['sabaq']
sabz ['sabz']
sabzah ['sabzah']
safar ['safar']
sailaab ['sailaab']
sair ['sair']
sang ['sang']
sar ['sar']
sar-garm ['sar-garm']
sar-taa-sar ['sar-taa-sar']
saraab ['saraab']
sarmaayah ['sarmaayah']
sarshaar ['sarshaar']
sarv ['sarv']
saudaa ['saudaa']
sazaa ['sazaa']
shaah ['shaah']
shaahid ['shaahid']
shaam ['shaam']
shakl ['shakl']
sharaab ['sharaab']
sharaar ['sharaar']
sharm ['sharm']
sharmindah ['sharmindah']
shauq ['shauq']
shevah ['shevah']
shiiraazah ['shiiraazah']
shiishah ['shiishah']
shikaar ['shikaar']
shikan ['shikan']
shikast ['shikast']
shikvah ['shikvah']
sho;x ['sho;x']
shor ['shor']
shoriidah ['shoriidah']
shu((aa(( ['shu((aa((']
shu((lah ['shu((lah']
shumaar ['shumaar']
siinah ['siinah']
sijdah ['sijdah']
sipaas ['sipaas']
sivaa ['sivaa']
su;xan ['su;xan']
sub;hah ['sub;hah']
suraa;g ['suraa;g']
surmah ['surmah']
taskiin ['taskiin']
tasliim ['tasliim']
te;g ['te;g']
tez ['tez']
tiir ['tiir']
tim;saal ['tim;saal']
ulfat ['ulfat']
va((dah ['va((dah']
va.sl ['va.sl']
va;hshat ['va;hshat']
vaa-bastah ['vaa-bastah']
vabaal ['vabaal']
vafaa ['vafaa']
vahm ['vahm']
vaj'h ["vaj'h"]
vaqt ['vaqt']
vi.saal ['vi.saal']
vidaa(( ['vidaa((']
vujuud ['vujuud']
vus((at ['vus((at']
yuusuf ['yuusuf']
za;hmat ['za;hmat']
za;xm ['za;xm']
zahr ['zahr']
zahrah ['zahrah']
zamaanah ['zamaanah']
zanjiir ['zanjiir']
zar ['zar']
zulf ['zulf']
In [4]:
mark_okay_lemmas(to_add)
print_stats()
Currently there are 1394 out of 4101
In [5]:
update_files()
Currently there are 1394 out of 4101
In [8]:
tokens_remaining
Out[8]:
['((ar.se',
'((uhde',
'((uqde',
':ta((no;n',
':tabii((ato;n',
':tay',
':zan',
':zann',
':zulmat-kade',
';daal',
';daalaa',
';daale;nge',
';daaliye',
';dar',
';daraataa',
';dare',
';dartaa',
';darte',
';dhaa;npaa',
';dhuu;n;de',
';dhuu;n;dhaa',
';dhuu;n;dhe',
';dhuu;n;dtaa',
';dubo',
';duboyaa',
';duubii',
';gam-;xaane',
';gam-;xvaaragii',
';gam-;xvaarii',
';gam-gusaar',
';gam-gusaarii',
';gam-kadah',
';gam-naak',
';gam-o-shaadii',
';gammaazii',
';gamzah-o-((ishvah-o-adaa',
';gamze',
';ganiimat',
';gariib',
';gariib-navaaz',
';gariibaa;n',
';gariibii',
';garq-e',
';garqah-e',
';garrah-e',
';gash',
';gayuur',
';gazaal',
';gazal',
';gazal-;xvaa;n',
';gazal-;xvaanii',
';gazal-saraa',
';gulaam-e',
';gunche',
';gurbat',
';gusl-e',
';ha:z:z-e',
';ha;zar',
';haa))il',
';haajaat',
';haajat-mand',
';haalaa;nkih',
';haalat',
';habaab-e',
';had',
';hadii;s-e',
';haif',
';hairaa;n',
';hairaanii',
';hairat-kadah-e',
';haj',
';hall-e',
';halqe',
';hammaam',
';hamzah',
';haq-shinaas',
';haqq-e',
';haraam',
';harakat',
';haram',
';harii.s-e',
';hasad',
';hasb-e',
';hashr',
';hasrat-sanj',
';hasrat-zadah',
';hasrataa',
';hasuud',
';hau.salah',
';hau.slah',
';hau.sle',
';havaadi;s',
';hayaa',
';hayaat-e',
';hayaat-o-band-e',
';hazii;n',
';hiile',
';hijaab-o-vidaa((-e',
';hijr',
';hijraa;n',
';hikaayaat-e',
';hikaayat-e',
';hikmat',
';hinaa))ii',
';hisaab',
';hujjat',
';hujrah',
';hukm',
';husain',
';husn-parastii',
';huur',
';huuraan-e',
';huure;n',
';saabit',
';saanii',
';sabaat',
';taale;nge',
';tapaktaa',
';tapaktii',
';tapkaa',
';tapkaane',
';tapke',
';te;rhaa',
';thaanii',
';thahraa',
';thahre;n',
';than;daa',
';tuk;raa',
';tuu;t',
';tuu;te',
';xa:t-e',
';xa:t:t-e',
';xa:t:t-o-;xaal',
';xa:taa',
';xa:tar',
';xaa;n',
';xaak-andaaz',
';xaakistar-nishiinii',
';xaakistar-o-bulbul',
';xaal-e',
';xaalii',
';xaaliq-e',
';xaam',
';xaamah-farsaa',
';xaamosh',
';xaamoshii',
';xaamushii',
';xaan-maa;n',
';xaan-maa;n-;xaraab',
';xaanah-;xaraabii',
';xaanah-aaraa))ii',
';xaanah-e',
';xaanah-viiraa;n-saaz',
';xaanah-viiraanii',
';xaanah-zaad-e',
';xaanaqaah',
';xaar-;xaar-e',
';xaaraa',
';xaashaak',
';xaatim-e',
';xaatir-e',
';xabar',
';xafaa',
';xafaa))ii',
';xafaqaanii',
';xair',
';xair-baad',
';xajaalat',
';xajlat-e',
';xalal',
';xalq',
';xalvat-o-jalvat',
';xamosh',
';xamoshii',
';xamoshiyo;n',
';xamyaazah',
';xanjar',
';xanjar-aazmaa',
';xaraabaat',
';xaraabii',
';xaraash-e',
';xastagii',
';xastah-jaa;n',
';xastah-tan',
';xatm',
';xayaalii',
';xeme',
';xi.zr',
';xi:t:tah-e',
';xi;zr',
';xirad',
';xirqah-o-sajjaadah',
';xissat',
';xiyaabaa;n',
';xizaa;n',
';xo',
';xudaa',
';xudaa))ii',
';xudaa-parast',
';xudaa-saaz',
';xudaavand-e',
';xuftah',
';xuld',
';xum-kadah',
';xushk',
';xusrau',
';xusrav-e',
';xuu-e',
';xuu-gar',
';xuu-kardah-e',
';xuu;n',
';xuu;n-;galtiidah-e',
';xuu;n-;galtiidan-e',
';xuu;n-bahaa',
';xuu;n-chakaa;n',
';xuu;n-fishaa;n',
';xuu;n-gashtah',
';xuu;n-naab',
';xuu;n-naabah',
';xuu;n-naabah-fishaa;n',
';xuu;n-naabah-fishaanii',
';xuu;n-naabah-mashrab',
';xuu;n-rez',
';xuu;n-shudah-e',
';xuub',
';xuub-ruuyo;n',
';xuubaa;n',
';xuubaan-e',
';xuun-e',
';xuunii;n-navaa-e',
';xvaab-naak',
';xvaahish',
';xvaahishe;n',
';xvaarii',
';xvaastah',
';xvud',
';xvud-aaraa',
';xvud-aaraa))ii',
';xvud-biin-o-;xvud-aaraa',
';xvud-raftah-e',
';xvudaa',
';xvur',
';xvurshed',
';xvurshiid-jamaal',
';xvurshiid-o-maah',
';xvush',
';xvush-;haal',
';xvush-navaayaan-e',
';xvush-o-naa-;xvush',
';xvushaa',
';xvushaamad-:talabo;n',
';xvushii',
';xvushtar',
';zaahir',
';zaat',
';zahn',
';zaliil',
';zaraa',
';zarii((ah-e',
';zarre',
';zauq-fizaa',
';zikr',
';zillat',
';zimmah',
'a((.zaa',
'a((:zam',
'a((maar',
'a.snaam-e',
'a:tfaal',
'a;gyaar',
'a;hbaab',
'a;hmaqo;n',
'a;hraam',
'a;ndherii',
'a;xtar',
'a;xtar-shumaarii',
'aa',
'aa))e',
'aa))e;n',
'aa))e;nge',
'aa))ii',
'aa))iin-e',
'aa))iinah-;xaane',
'aa))iinah-daarii',
'aa))iine',
'aa))inah-;xaane',
'aa))inah-daar',
'aa))inah-pardaaz',
'aa))inah-siimaa',
'aa))ine',
'aa))iyo',
'aa))o',
'aa))uu;n',
'aa;gosh-e',
'aa;gosh-kushaa',
'aa;gosh-kushaa))ii',
'aa;nkh',
'aa;nkhe;n',
'aa;nkho;n',
'aa;xir',
'aa;zar-fishaa;n',
'aab-daar',
'aab-giinah',
'aab-o-gil',
'aabaadii',
'aabilah-paa',
'aabilo;n',
'aablah',
'aabruu-e',
'aadam',
'aadmii',
'aafaaq',
'aafiriinish',
'aaftaab-parast',
'aag',
'aagahii',
'aage',
'aah-o-faryaad',
'aah-o-fi;gaa;n',
'aahan',
'aahang-e',
'aahe;n',
'aahuu-e',
'aaj',
'aalaat-e',
'aaluudah',
'aamad-aamad-e',
'aan',
'aanaa',
'aane',
'aap',
'aaraam',
'aaramiidagii',
'aare',
'aarzuu))e;n',
'aarzuu-;xiraamii',
'aarzuu-e',
'aas',
'aasaa))ish',
'aasaa;n',
'aashiyaa;n',
'aashiyaan',
'aashnaa))ii',
'aashob-e',
'aashuftagii',
'aashuftah-bayaanii',
'aashuftah-navaa',
'aashuftah-sar',
'aashuftah-saro;n',
'aasmaa;n',
'aasmaan',
'aasmaanii',
'aastaa;n',
'aastaan-e',
'aastii;n',
'aataa',
'aate',
'aatii',
'aatish-afshaanii',
'aatish-baar',
'aatish-diidah',
'aatish-kadah',
'aatish-nafas',
'aatish-parast',
'aatish-zadah',
'aatishii;n',
'aavaaragii',
'aavaarah',
'aavaaz',
'aave',
'aave;n',
'aave;nge',
'aayaa',
'aaye',
'aazaad',
'aazaadah-o-;xvud-bii;n',
'aazaado;n',
'aazmaa))e',
'aazmaa))ish',
'aazmaanaa',
'aazmaane',
'aazurdah',
'ab',
'abhii',
'abjad',
'abnaa-e',
'abr-o-baad',
'abr-o-shab-e',
'achchhaa',
'achchhe',
'achchho;n',
'adab',
'af((ii',
'afgaar',
'afsaanah',
'afshardah-e',
'afshurdan',
'afsos',
'afsurdah',
'afsuun-e',
'afsuus',
'afzaa))ish-e',
'agar',
'agarchih',
'agle',
'aham',
'ahl-e',
'aisaa',
'aise',
'aisii',
'ak;sar',
'akbar',
'al-amaa;n',
'al-ba;hr',
'al-havas',
'al-l;aah',
'al-ra;gm-e',
'alif',
'almaas',
'amaa;n',
'amn',
'anaa',
'andaaz-o-adaa',
'andaazah-e',
'andaaze',
'andar',
'andeshe',
'andher',
'andoh-e',
'andoh-rubaa',
'angez',
'anguur',
'anjaam-e',
'anjum-e',
'apnaa',
'apnaa-saa',
'apne',
'apnii',
'arbaab-e',
'armaan',
'armu;gaa;n',
'arzaa;n',
'asaamii',
'asad-ul-l;aah',
'asbaab-e',
'ash((aar',
'ashk-baarii',
'ashyaa',
'asiir',
'asiirii',
'asiiro;n',
'au.zaa((-e',
'aur',
'auraaq-e',
'aurang-e',
'auro;n',
'ay',
'ayaa;g',
'ayyaam-e',
'az',
'az-baskih',
'az-dast-raftah',
'azal',
'ba((iid',
'ba:t-e',
'ba;gal',
'ba;ndhaa',
'ba;ndhe',
'ba;rh',
'ba;xsh',
'ba;xshe',
'ba;xt-e',
'ba;xye',
'baa',
'baa))i;s',
'baa-ham-digar',
'baa-vujuud-e',
'baa:til',
'baa:tin',
'baa;g-baan',
'baa;g-baan-o-kaf-e',
'baa;ndh',
'baa;ndhaa',
'baa;ndhe',
'baa;ndhiye',
'baa;ndhte',
'baa;ng-e',
'baa;xtan',
'baad-o-bah',
'baad-pemaa))ii',
'baadah-;xvaar',
'baadah-aashaamii',
'baadah-o-saa;gar',
'baadbaan-e',
'baadshaah',
'baag',
'baahar',
'baajaa',
'baal-e',
'baal-kushaa',
'baal-o-par',
'baalii;n',
'baaliin-e',
'baam',
'baanii',
'baaqii',
'baar-haa',
'baarbud-e',
'baare',
'baarish',
'baat',
'baate;n',
'baato;n',
'baavar',
'baavujuud-e',
'baaz',
'baaz-gasht',
'baaziichah-e',
'bachcho;n',
'bache;n',
'bachte',
'bad',
'bad-((ahdii',
'bad-;xuuyaa;n',
'bad-;xvaah',
'bad-gumaa;n',
'bad-mast',
'bad-naam',
'bad-tar',
'badalne',
'badan',
'badii',
'badlaa',
'badle',
'badr',
'bah',
'bah-;zarrah',
'bahaa))ii',
'bahaadur-e',
'bahaanah-e',
'bahaane',
'bahaarii',
'baham',
'bahne',
'bahr-e',
'bahraa',
'bahtar',
'bahut',
'bai.zah-aasaa',
'bai.zah-e',
'bai;th',
'bai;thaa',
'bai;the',
'bai;the;n',
'bai;thiye',
'bai;thnaa',
'baidaa-e',
'bairuun-e',
'bak',
'bal;gamii',
'balaa))e;n',
'balaa))o;n',
'ban',
"ban'ne",
'banaa',
'banaa))e',
'banaa))o',
'banaat-ul-na((sh-e',
'banaayaa',
'band-o-bast',
'bandah-parvar',
'bane',
'bane;nge',
'banegii',
'banii',
'baniye',
'bante',
'bantii',
'baqaa',
'bar',
'bar-:taraf',
'bar-;xvurdaar-e',
'bar-ham',
'bar-paa',
'bar-ruu-e',
'bar-sabiil-e',
'baraa))e',
'baraa-e',
'baraabar',
'baraat-e',
'barahman',
'barahnagii',
'baras',
'barastii',
'bard-e',
'barg-e',
'barii;n',
'barjaa-maa;ndah',
'barq-;xiraam',
'barsaat',
'barsh-kaal',
'barshkaal-e',
'barso;n',
'bas',
'bashar',
'baskih',
'bastiyo;n',
'bataa',
'bataa))o',
'bataa))uu;n',
'batlaa',
'batlaa))e;n',
'batlaa))o',
'bayaa;n',
'bayaabaa;n',
'bazm-aaraa))iyaa;n',
'be',
'be-((ishq',
'be-.sadaa',
'be-.sarfah',
'be-:talab',
'be-;haa.sil',
'be-;hau.slagii',
'be-;hijaabiyaa;n',
'be-;his',
'be-;xabar',
'be-;xarosh',
'be-;xuun-e',
'be-;xvaab',
'be-;xvaabii',
'be-;xvudii-o-hushyaarii',
'be-;xvudo;n',
'be-a;sar',
'be-adabo;n',
'be-ayyaam-e',
'be-baak',
'be-bahrah',
'be-bunyaad',
'be-chain',
'be-daad-fan',
'be-dar',
'be-dar-o-diivaar',
'be-darvaazah',
'be-dast-o-paa',
'be-dast-o-paa))ii',
'be-davaa',
'be-dilii',
'be-dimaa;g',
'be-dimaa;gii',
'be-girah',
'be-gunah',
'be-gunah-kush-o-;haq',
'be-havaa-e',
'be-i((tidaaliyo;n',
'be-iltifaatii',
'be-jaa',
'be-jurm',
'be-ka;saafat',
'be-kafan',
'be-karaa;n',
'be-mai',
'be-mazaa',
'be-mihr',
'be-minnat-e',
'be-mu;haabaa',
'be-mudda((aa',
'be-nang-o-naam',
'be-niyaazii',
'be-panaah',
'be-par-o-baalii',
'be-pardah',
'be-partav-e',
'be-parvaa',
'be-qaraar',
'be-qaraarii',
'be-sabab',
'be-sar-o-paa',
'be-savaal',
'be-shaanah-e',
'be-sham((a',
'be-sharaab-o-dil-e',
'be-shiiraazah',
'be-taabii',
'be-takalluf',
'be-vafaa',
'be-vafaa))ii',
'be-zaar',
'be-zabaa;n',
'be-zabaanii',
'be-zabaano;n',
'bebaakii-o-gustaa;xii',
'bed',
'bedaad-gar',
'bedaar-e',
'bedard',
'bedil',
'begaanah-e',
'bekaar',
'beqaraarii',
'besh',
'betaab',
'betaabii',
'bevafaa',
'bhaa))ii',
'bhaagaa',
'bhaage',
'bhaage;nge',
'bhaagne',
'bhalaa',
'bhale',
'bhar',
'bharam',
'bhare',
'bharne',
'bharuu;n',
'bhed',
'bhes',
'bhii',
'bho;n',
'bhuuke',
'bhuul',
'bhuulaa',
'bhuule',
'bichhaa))e',
'biga;r',
'biga;rnaa',
'biga;rtaa',
'bihisht',
'bihisht-shamaa))il',
'biimaar-daar',
'biinaa',
'biinaa))ii',
'biinish',
'bijlii',
'bik',
'bikhar',
'bin',
'binaa-e',
'bisaa:t-e',
'bismil',
'bo',
'bodaa',
'bojh',
'bolaa',
'bole',
'boriyaa',
'bos-e',
'bosah',
'bose',
'bote',
'bove',
'bu((d',
'bujhaa',
'bujhaa))e',
'bujhte',
'bujhtii',
'bulaa',
'bulaa))e',
'bulaataa',
'bulandii',
'bulbule;n',
'bun-e',
'buraa',
'buraa))ii',
'burdah',
'burdan-e',
'burii',
'burrish-e',
'bustaanii',
'but-;xaanah',
'but-;xaane',
'but-kade',
'but-shikanii',
'butaa;n',
'buto;n',
"buu-'l-havas",
'buu-e',
'buu-turaab',
'buu;nd',
'buzurg',
'cha;rh',
'cha;rhii',
'cha;taknaa',
'chaah',
'chaahaa',
'chaahe',
'chaahe;n',
'chaahiye',
'chaahne',
'chaahne-vaalaa',
'chaaho',
'chaahtaa',
'chaahte',
'chaahuu;n',
'chaal',
'chaalaak',
'chaar',
'chaar-duham',
'chaar-mauj',
'chaarah-e',
'chaarah-gar',
'chaarah-juu))ii',
'chaarah-saaz',
'chahrah',
'chahre',
'chain',
'chakiidan',
'chakkar',
'chal',
'chalaa',
'chale',
'chale;n',
'chalii',
'chalne',
'chaltaa',
'chaltii',
'chaman',
'chand',
'chande',
'chang',
'chang-o-rabaab',
'charchaa',
'chashm-numaa))ii',
'chashm-o-chiraa;g-e',
'chashm-o-gosh',
'chhalle',
'chhe;r',
'chhe;re',
'chhe;re;nge',
'chhe;riye',
'chhe;ruu;n',
'chhi;rkaa',
'chhi;rke',
'chhi;rke;n',
'chhide',
'chho;r',
'chho;raa',
'chho;re',
'chho;re;n',
'chho;re;nge',
'chho;rii',
'chho;ro',
'chho;ruu;ngaa',
'chhu;t',
'chhu;taa',
'chhu;tii',
'chhupaa))e',
'chhupaanaa',
'chhupaane',
'chhupnaa',
'chhurii',
'chhuu;taa',
'chhuu;tuu;n',
'chii;xuu;n',
'chiin-e',
'chiir',
'chiiz',
'chipak',
'chiraa;gaa;n',
'chiraa;gaan-e',
'chor',
'chorii',
'chubho',
'chuke',
'chukii;n',
'chuntaa',
'chup',
'chupke',
'churaanaa',
'da((vaa-e',
'da((vat-e',
'da((ve',
'daa))im',
'daa))im-ul-;habs',
'daa;g-saamaa;n',
'daa;go;n',
'daa;nto;n',
'daab',
'daabte',
'daad',
'daad-;xvaah',
'daad-o-sitad',
'daadah',
'daam-gaah',
'daamaa;n',
'daamaan-e',
'daaman',
'daaman-afshaanii',
'daaman-o-taar-e',
'daanaa',
'daanah',
'daar-o-rasan',
'daastaan-e',
'dab',
'dabaa',
'dabii',
'dabistaa;n',
'daf((-e',
'dafiinah',
'dafn',
'dahaa;n',
'dahaan-e',
'dahr',
'dai',
'dair',
'dallaal-e',
'dandaa;n',
'dandaa;n-numaa',
'dar-;xvar',
'dar-;xvur-e',
'dar-havaa-e',
'dar-kaar',
'dar-maa;ndagii',
'dar-pa-e',
'dar-pardah',
'dar-qafaa-e',
'dar-tishnagii-murdagaa;n',
'dara;xshaa;n',
'daraaz',
'daraazii',
'darbaa;n',
'darbaanii',
'dard-mand',
'dard-o-alam',
'dare;g',
'dare;gaa',
'darmaa;ndagii',
'darmiyaa;n',
'dars-e',
'daruu;n',
'darvaazah',
'darvesh',
'daryaa-aashnaa',
'dashnah-o-;xanjar',
'dashne',
'dasht-navardii',
'dast-gaah-e',
'dast-gardaa;n',
'dast-giirii',
'dast-o-;xanjar-e',
'dast-o-paa',
'dastaar',
'dau;raa))e',
'dau;re',
'dau;rte',
'daulat-o-dii;n',
'davaa',
'davaam',
'de',
'de;n',
'de;nge',
'dekh',
'dekhaa',
'dekhe',
'dekhe;n',
'dekhii',
'dekhiye',
'dekhnaa',
'dekhne',
'dekho',
'dekhtaa',
'dekhte',
'dekhuu;n',
'denaa',
'dene',
'denii',
'detaa',
'dete',
'dhabbe',
'dhamkii',
'dharaa',
'dhaul-dhappaa',
'dho',
'dho))e',
'dhokaa',
'dhoke',
'dhotaa',
'dhuvaa;n',
'digar',
'dihqaa;n',
'dii',
'dii;n-daar',
'diid',
'diidaar-jo',
'diidah-o-dil',
'diigar',
'diije',
'diijiye',
'diijiyo',
'diin-o-dil',
'diivaan-e',
'diivaanah',
'diivaar-o-dar',
'diivaaro;n',
'dijlah',
'dikhaa',
'dikhaa))e;n',
'dikhaa))ii',
'dikhaa))uu;ngaa',
'dikhaataa',
...]
In [25]:
[x+','+','.join(lemmas[x]) for x in search_tokens('-o-')]
Out[25]:
["rang-o-saaz'haa,rang-o-saaz,rang,saaz",
'najaf-o-:tauf-e,najaf-o-:tauf,najaf,:tauf',
'naaqi.s-o-kaamil,naaqi.s-o-kaamil,naaqi.s,kaamil',
'fu.zuul-o-jur))at-e,fu.zuul-o-jur))at,fu.zuul,jur))at',
'be-nang-o-naam,be-nang-o-naam,be-nang,naam',
'na:z:zaarah-o-;xayaal,na:z:zaarah-o-;xayaal,na:z:zaarah,;xayaal',
'dil-o-mizhgaa;n,dil-o-mizhgaa;n,dil,mizhgaa;n',
'piyaalah-o-saa;gar,piyaalah-o-saa;gar,piyaalah,saa;gar',
'lab-o-dandaa;n,lab-o-dandaa;n,lab,dandaa;n',
'dil-o-dil,dil-o-dil,dil,dil',
'daar-o-rasan,daar-o-rasan,daar,rasan',
'be-gunah-kush-o-;haq,be-gunah-kush-o-;haq,be-gunah-kush,;haq',
'shab-o-roz-o-maah-o-saal,shab-o-roz-o-maah-o-saal,shab,roz,maah,saal',
';xvud-biin-o-;xvud-aaraa,;xvud-biin-o-;xvud-aaraa,;xvud-biin,;xvud-aaraa',
'((aish-o-jaah,((aish-o-jaah,((aish,jaah',
'kaam-o-dahan,kaam-o-dahan,kaam,dahan',
'((umr-o-asad,((umr-o-asad,((umr,asad',
'qad-o-gesuu,qad-o-gesuu,qad,gesuu',
'be-sharaab-o-dil-e,be-sharaab-o-dil,be-sharaab,dil',
'iimaan-o-aagahii,iimaan-o-aagahii,iimaan,aagahii',
'sang-o-;xisht,sang-o-;xisht,sang,;xisht',
'va;hshat-o-sheftah,va;hshat-o-sheftah,va;hshat,sheftah',
'dard-o-alam,dard-o-alam,dard,alam',
'vujuud-o-((adam,vujuud-o-((adam,vujuud,((adam',
'dil-o-jaa;n,dil-o-jaa;n,dil,jaa;n',
'dast-o-baazuu,dast-o-baazuu,dast,baazuu',
'qahr-o-((ataab,qahr-o-((ataab,qahr,((ataab',
'mai-o-saa;gar,mai-o-saa;gar,mai,saa;gar',
'jeb-o-daaman,jeb-o-daaman,jeb,daaman',
'.sa;hraa-dast-gaah-o-qa:trah,.sa;hraa-dast-gaah-o-qa:trah,.sa;hraa-dast-gaah,qa:trah',
'.sub;h-o-mihr,.sub;h-o-mihr,.sub;h,mihr',
'sar-o-saamaa;n,sar-o-saamaa;n,sar,saamaa;n',
'baal-o-par,baal-o-par,baal,par',
'diidah-o-dil,diidah-o-dil,diidah,dil',
'aazaadah-o-;xvud-bii;n,aazaadah-o-;xvud-bii;n,aazaadah,;xvud-bii;n',
'laalah-o-gul-o-nasrii;n,laalah-o-gul-o-nasrii;n,laalah,gul,nasrii;n',
'la((l-o-zumurrud-o-zar-o-gauhar,la((l-o-zumurrud-o-zar-o-gauhar,la((l,zumurrud,zar,gauhar',
'mudda((ii-o-diidah,mudda((ii-o-diidah,mudda((ii,diidah',
'pech-o-;xam,pech-o-;xam,pech,;xam',
'suruur-o-soz,suruur-o-soz,suruur,soz',
'mai-o-angabii;n,mai-o-angabii;n,mai,angabii;n',
'sair-o-tamaashaa,sair-o-tamaashaa,sair,tamaashaa',
'jam((-o-;xarj-e,jam((-o-;xarj,jam((,;xarj',
'daulat-o-dii;n,daulat-o-dii;n,daulat,dii;n',
'kavaakib-sipah-o-mihr-((alam,kavaakib-sipah-o-mihr-((alam,kavaakib-sipah,mihr-((alam',
'kaar-o-baar-e,kaar-o-baar,kaar,baar',
'giryah-o-lab,giryah-o-lab,giryah,lab',
'jam((-o-;xarj,jam((-o-;xarj,jam((,;xarj',
'dil-o-dii;n,dil-o-dii;n,dil,dii;n',
'taab-o-tuvaa;n,taab-o-tuvaa;n,taab,tuvaa;n',
'dil-o-diidah,dil-o-diidah,dil,diidah',
'saa;xtah-o-fa.sl-e,saa;xtah-o-fa.sl,saa;xtah,fa.sl',
'dast-o-paa,dast-o-paa,dast,paa',
'baadah-o-saa;gar,baadah-o-saa;gar,baadah,saa;gar',
'dar-o-diivaar-e,dar-o-diivaar,dar,diivaar',
'saa;gar-o-miinaa,saa;gar-o-miinaa,saa;gar,miinaa',
'josh-o-;xarosh,josh-o-;xarosh,josh,;xarosh',
'tasliim-o-badaa,tasliim-o-badaa,tasliim,badaa',
'kaar-o-baar,kaar-o-baar,kaar,baar',
'fariiduun-o-jam-o-kai;xusrav-o-daaraab-o-bahman,fariiduun-o-jam-o-kai;xusrav-o-daaraab-o-bahman,fariiduun,jam,kai;xusrav,daaraab,bahman',
'payaam-o-chashm,payaam-o-chashm,payaam,chashm',
'rag-o-pai,rag-o-pai,rag,pai',
'raah-o-rasm-e,raah-o-rasm,raah,rasm',
'millat-o-mulk,millat-o-mulk,millat,mulk',
'rah-o-rasm-e,rah-o-rasm,rah,rasm',
'naaz-o-;gamzah,naaz-o-;gamzah,naaz,;gamzah',
'((aql-o-dil-o-jaa;n,((aql-o-dil-o-jaa;n,((aql,dil,jaa;n',
';hayaat-o-band-e,;hayaat-o-band,;hayaat,band',
'shikeb-o-.sabr-e,shikeb-o-.sabr,shikeb,.sabr',
'sho;x-o-((aashiq-e,sho;x-o-((aashiq,sho;x,((aashiq',
'taab-o-tavaa;n,taab-o-tavaa;n,taab,tavaa;n',
'aab-o-havaa-e,aab-o-havaa,aab,havaa',
'andaaz-o-adaa,andaaz-o-adaa,andaaz,adaa',
';xvush-o-naa-;xvush,;xvush-o-naa-;xvush,;xvush,naa-;xvush',
'aab-o-gil,aab-o-gil,aab,gil',
'chashm-o-gosh,chashm-o-gosh,chashm,gosh',
'ham-:tar;hii-o-dard-e,ham-:tar;hii-o-dard,ham-:tar;hii,dard',
'va.sl-o-yaad-e,va.sl-o-yaad,va.sl,yaad',
'kushaad-o-bast-e,kushaad-o-bast,kushaad,bast',
'rah-o-sitam-e,rah-o-sitam,rah,sitam',
'sitam-o-jor-e,sitam-o-jor,sitam,jor',
'saadagii-o-purkaarii,saadagii-o-purkaarii,saadagii,purkaarii',
'te;g-o-kafan,te;g-o-kafan,te;g,kafan',
'sar-o-paa,sar-o-paa,sar,paa',
'chaman-o-;xuubii-e,chaman-o-;xuubii,chaman,;xuubii',
'rasm-o-raah,rasm-o-raah,rasm,raah',
'pur-pech-o-;xam,pur-pech-o-;xam,pur-pech,;xam',
'qais-o-kohkan,qais-o-kohkan,qais,kohkan',
';gamzah-o-((ishvah-o-adaa,;gamzah-o-((ishvah-o-adaa,;gamzah,((ishvah,adaa',
'yak-((aalam-o-((aalam,yak-((aalam-o-((aalam,yak-((aalam,((aalam',
'yaas-o-ummiid,yaas-o-ummiid,yaas,ummiid',
'aah-o-fi;gaa;n,aah-o-fi;gaa;n,aah,fi;gaa;n',
'rasm-o-rah-e,rasm-o-rah,rasm,rah',
'pech-o-taab,pech-o-taab,pech,taab',
'be-;xvudii-o-hushyaarii,be-;xvudii-o-hushyaarii,be-;xvudii,hushyaarii',
'abr-o-shab-e,abr-o-shab,abr,shab',
'ma((shuuqii-o-be-;hau.salagii,ma((shuuqii-o-be-;hau.salagii,ma((shuuqii,be-;hau.salagii',
'saaqii-o-;zauq-e,saaqii-o-;zauq,saaqii,;zauq',
'bebaakii-o-gustaa;xii,bebaakii-o-gustaa;xii,bebaakii,gustaa;xii',
'.saa((iqah-o-shu((lah-o-siimaab,.saa((iqah-o-shu((lah-o-siimaab,.saa((iqah,shu((lah,siimaab',
'chashm-o-chiraa;g-e,chashm-o-chiraa;g,chashm,chiraa;g',
'daad-o-sitad,daad-o-sitad,daad,sitad',
'be-sar-o-paa,be-sar-o-paa,be-sar,paa',
'chang-o-rabaab,chang-o-rabaab,chang,rabaab',
'jaam-o-subuu,jaam-o-subuu,jaam,subuu',
':tarz-o-ravish,:tarz-o-ravish,:tarz,ravish',
'naqsh-o-nigaar-e,naqsh-o-nigaar,naqsh,nigaar',
'shab-o-roz,shab-o-roz,shab,roz',
'shar((-o-aa))iin,shar((-o-aa))iin,shar((,aa))iin',
'qa:trah-o-mauj-o-;hubaab,qa:trah-o-mauj-o-;hubaab,qa:trah,mauj,;hubaab',
'tamkiin-o-.zab:t,tamkiin-o-.zab:t,tamkiin,.zab:t',
'baad-o-bah,baad-o-bah,baad,bah',
'dil-o-dast-e,dil-o-dast,dil,dast',
'qahr-o-;ga.zab,qahr-o-;ga.zab,qahr,;ga.zab',
'daaman-o-taar-e,daaman-o-taar,daaman,taar',
'dil-o-jigar,dil-o-jigar,dil,jigar',
'tamkiin-o-hosh,tamkiin-o-hosh,tamkiin,hosh',
'mihr-o-mah,mihr-o-mah,mihr,mah',
'savaal-o-javaab,savaal-o-javaab,savaal,javaab',
'sabzah-o-gul,sabzah-o-gul,sabzah,gul',
'fitnah-o-fasaad,fitnah-o-fasaad,fitnah,fasaad',
'abr-o-baad,abr-o-baad,abr,baad',
'la((l-o-guhar,la((l-o-guhar,la((l,guhar',
'be-dast-o-paa))ii,be-dast-o-paa))ii,be-dast,paa))ii',
';xa:t:t-o-;xaal,;xa:t:t-o-;xaal,;xa:t:t,;xaal',
'((ishq-o-mazduurii-e,((ishq-o-mazduurii,((ishq,mazduurii',
'naay-o-nosh,naay-o-nosh,naay,nosh',
';xirqah-o-sajjaadah,;xirqah-o-sajjaadah,;xirqah,sajjaadah',
'ham-peshah-o-ham-mashrab-o-ham-raaz,ham-peshah-o-ham-mashrab-o-ham-raaz,ham-peshah,ham-mashrab,ham-raaz',
'muqaabil-o-da((vaa-e,muqaabil-o-da((vaa,muqaabil,da((vaa',
'shai;x-o-barhaman,shai;x-o-barhaman,shai;x,barhaman',
'shuhuud-o-shaahid-o-mashhuud,shuhuud-o-shaahid-o-mashhuud,shuhuud,shaahid,mashhuud',
';hijaab-o-vidaa((-e,;hijaab-o-vidaa((,;hijaab,vidaa((',
'nashv-o-numaa,nashv-o-numaa,nashv,numaa',
'be-dar-o-diivaar,be-dar-o-diivaar,be-dar,diivaar',
'mihr-o-maah,mihr-o-maah,mihr,maah',
'nisyah-o-naqd-e,nisyah-o-naqd,nisyah,naqd',
'gah-o-be-gah,gah-o-be-gah,gah,be-gah',
'naaz-o-adaa,naaz-o-adaa,naaz,adaa',
'aah-o-faryaad,aah-o-faryaad,aah,faryaad',
'baa;g-baan-o-kaf-e,baa;g-baan-o-kaf,baa;g-baan,kaf',
'dast-o-;xanjar-e,dast-o-;xanjar,dast,;xanjar',
'mai-o-na;gmah,mai-o-na;gmah,mai,na;gmah',
'fardaa-o-dii,fardaa-o-dii,fardaa,dii',
'be-dast-o-paa,be-dast-o-paa,be-dast,paa',
'faryaad-o-aah-o-zaarii,faryaad-o-aah-o-zaarii,faryaad,aah,zaarii',
'dil-o-chashm-e,dil-o-chashm,dil,chashm',
';xas-o-;xaashaak-e,;xas-o-;xaashaak,;xas,;xaashaak',
';xvurshiid-o-maah,;xvurshiid-o-maah,;xvurshiid,maah',
';gam-o-shaadii,;gam-o-shaadii,;gam,shaadii',
'be-par-o-baalii,be-par-o-baalii,be-par,baalii',
':taa((at-o-zuhd,:taa((at-o-zuhd,:taa((at,zuhd',
'band-o-bast,band-o-bast,band,bast',
'shiishah-o-qada;h-o-kuuzah-o-sabuu,shiishah-o-qada;h-o-kuuzah-o-sabuu,shiishah,qada;h,kuuzah,sabuu',
'aab-o-havaa,aab-o-havaa,aab,havaa',
'diivaar-o-dar,diivaar-o-dar,diivaar,dar',
'sar-o-barg-e,sar-o-barg,sar,barg',
';xas-o-;xaashaak,;xas-o-;xaashaak,;xas,;xaashaak',
'((ishq-o-naa-guziir-e,((ishq-o-naa-guziir,((ishq,naa-guziir',
'sarv-o-.sanobar,sarv-o-.sanobar,sarv,.sanobar',
'dar-o-diivaar,dar-o-diivaar,dar,diivaar',
'mihr-o-vafaa,mihr-o-vafaa,mihr,vafaa',
'gul-o-laalah,gul-o-laalah,gul,laalah',
'nasheb-o-faraaz,nasheb-o-faraaz,nasheb,faraaz',
';xaakistar-o-bulbul,;xaakistar-o-bulbul,;xaakistar,bulbul',
'((izz-o-naaz,((izz-o-naaz,((izz,naaz',
'pech-o-taab-e,pech-o-taab,pech,taab',
'sub;hah-o-zunnaar,sub;hah-o-zunnaar,sub;hah,zunnaar',
'diin-o-dil,diin-o-dil,diin,dil',
'ravish-o-mastii-e,ravish-o-mastii,ravish,mastii',
'qad-o-ru;x,qad-o-ru;x,qad,ru;x',
'majbuurii-o-da((vaa-e,majbuurii-o-da((vaa,majbuurii,da((vaa',
'laalah-o-gul,laalah-o-gul,laalah,gul',
';xalvat-o-jalvat,;xalvat-o-jalvat,;xalvat,jalvat',
'dashnah-o-;xanjar,dashnah-o-;xanjar,dashnah,;xanjar',
'rusuum-o-quyuud,rusuum-o-quyuud,rusuum,quyuud']
In [26]:
mark_okay_lemmas(search_tokens('o'))
In [44]:
update_files()
print_stats()
update_tokens_remaining()
Currently there are 2888 out of 4101
Currently there are 2888 out of 4101
In [38]:
[x for x in tokens_remaining if not(x in search_tokens('-'))]
Out[38]:
['((ar.se',
'((uhde',
'((uqde',
':tay',
':zan',
':zann',
';daal',
';daalaa',
';daale;nge',
';daaliye',
';dar',
';daraataa',
';dare',
';dartaa',
';darte',
';dhaa;npaa',
';dhuu;n;de',
';dhuu;n;dhaa',
';dhuu;n;dhe',
';dhuu;n;dtaa',
';duubii',
';gammaazii',
';gamze',
';ganiimat',
';gariib',
';gariibaa;n',
';gariibii',
';gash',
';gayuur',
';gazaal',
';gazal',
';gunche',
';gurbat',
';ha;zar',
';haa))il',
';haajaat',
';haalaa;nkih',
';haalat',
';had',
';haif',
';hairaa;n',
';hairaanii',
';haj',
';halqe',
';hammaam',
';hamzah',
';haraam',
';harakat',
';haram',
';hasad',
';hashr',
';hasrataa',
';hasuud',
';hau.salah',
';hau.slah',
';hau.sle',
';havaadi;s',
';hayaa',
';hazii;n',
';hiile',
';hijr',
';hijraa;n',
';hikmat',
';hinaa))ii',
';hisaab',
';hujjat',
';hujrah',
';hukm',
';husain',
';huur',
';huure;n',
';saabit',
';saanii',
';sabaat',
';taale;nge',
';tapaktaa',
';tapaktii',
';tapkaa',
';tapkaane',
';tapke',
';te;rhaa',
';thaanii',
';thahraa',
';thahre;n',
';than;daa',
';tuk;raa',
';tuu;t',
';tuu;te',
';xa:taa',
';xa:tar',
';xaa;n',
';xaalii',
';xaam',
';xaamushii',
';xaanaqaah',
';xaaraa',
';xaashaak',
';xabar',
';xafaa',
';xafaa))ii',
';xafaqaanii',
';xair',
';xajaalat',
';xalal',
';xalq',
';xamyaazah',
';xanjar',
';xaraabaat',
';xaraabii',
';xastagii',
';xatm',
';xayaalii',
';xeme',
';xi.zr',
';xi;zr',
';xirad',
';xissat',
';xiyaabaa;n',
';xizaa;n',
';xudaa',
';xudaa))ii',
';xuftah',
';xuld',
';xushk',
';xusrau',
';xuu;n',
';xuub',
';xuubaa;n',
';xvaahish',
';xvaahishe;n',
';xvaarii',
';xvaastah',
';xvud',
';xvudaa',
';xvur',
';xvurshed',
';xvush',
';xvushaa',
';xvushii',
';xvushtar',
';zaahir',
';zaat',
';zahn',
';zaliil',
';zaraa',
';zarre',
';zikr',
';zillat',
';zimmah',
'a((.zaa',
'a((:zam',
'a((maar',
'a:tfaal',
'a;gyaar',
'a;hbaab',
'a;hraam',
'a;ndherii',
'a;xtar',
'aa',
'aa))e',
'aa))e;n',
'aa))e;nge',
'aa))ii',
'aa))iine',
'aa))ine',
'aa))uu;n',
'aa;nkh',
'aa;nkhe;n',
'aa;xir',
'aabaadii',
'aablah',
'aadam',
'aadmii',
'aafaaq',
'aafiriinish',
'aag',
'aagahii',
'aage',
'aahan',
'aahe;n',
'aaj',
'aaluudah',
'aan',
'aanaa',
'aane',
'aap',
'aaraam',
'aaramiidagii',
'aare',
'aarzuu))e;n',
'aas',
'aasaa))ish',
'aasaa;n',
'aashiyaa;n',
'aashiyaan',
'aashnaa))ii',
'aashuftagii',
'aasmaa;n',
'aasmaan',
'aasmaanii',
'aastaa;n',
'aastii;n',
'aataa',
'aate',
'aatii',
'aatishii;n',
'aavaaragii',
'aavaarah',
'aavaaz',
'aave',
'aave;n',
'aave;nge',
'aayaa',
'aaye',
'aazaad',
'aazmaa))e',
'aazmaa))ish',
'aazmaanaa',
'aazmaane',
'aazurdah',
'ab',
'abhii',
'abjad',
'achchhaa',
'achchhe',
'adab',
'af((ii',
'afgaar',
'afsaanah',
'afshurdan',
'afsurdah',
'afsuus',
'agar',
'agarchih',
'agle',
'aham',
'aisaa',
'aise',
'aisii',
'ak;sar',
'akbar',
'alif',
'almaas',
'amaa;n',
'amn',
'anaa',
'andaaze',
'andar',
'andeshe',
'andher',
'angez',
'anguur',
'apnaa',
'apne',
'apnii',
'armaan',
'armu;gaa;n',
'arzaa;n',
'asaamii',
'ash((aar',
'ashyaa',
'asiir',
'asiirii',
'aur',
'ay',
'ayaa;g',
'az',
'azal',
'ba((iid',
'ba;gal',
'ba;ndhaa',
'ba;ndhe',
'ba;rh',
'ba;xsh',
'ba;xshe',
'ba;xye',
'baa',
'baa))i;s',
'baa:til',
'baa:tin',
'baa;ndh',
'baa;ndhaa',
'baa;ndhe',
'baa;ndhiye',
'baa;ndhte',
'baa;xtan',
'baadshaah',
'baag',
'baahar',
'baajaa',
'baalii;n',
'baam',
'baanii',
'baaqii',
'baare',
'baarish',
'baat',
'baate;n',
'baavar',
'baaz',
'bache;n',
'bachte',
'badalne',
'badii',
'badlaa',
'badle',
'badr',
'bah',
'bahaa))ii',
'bahaane',
'bahaarii',
'baham',
'bahne',
'bahraa',
'bahtar',
'bahut',
'bai;th',
'bai;thaa',
'bai;the',
'bai;the;n',
'bai;thiye',
'bai;thnaa',
'bak',
'bal;gamii',
'baraa))e',
'barastii',
'barii;n',
'barsaat',
'bas',
'bashar',
'baskih',
'bataa',
'bataa))uu;n',
'batlaa',
'batlaa))e;n',
'bayaa;n',
'bayaabaa;n',
'be',
'bed',
'bedard',
'bedil',
'bekaar',
'beqaraarii',
'besh',
'betaab',
'betaabii',
'bevafaa',
'bhaa))ii',
'bhaagaa',
'bhaage',
'bhaage;nge',
'bhaagne',
'bhalaa',
'bhale',
'bhar',
'bharam',
'bhare',
'bharne',
'bharuu;n',
'bhed',
'bhes',
'bhii',
'bhuuke',
'bhuul',
'bhuulaa',
'bhuule',
'bichhaa))e',
'biga;r',
'biga;rnaa',
'biga;rtaa',
'bihisht',
'biinaa',
'biinaa))ii',
'biinish',
'bijlii',
'bik',
'bikhar',
'bin',
'bismil',
'bu((d',
'bujhaa',
'bujhaa))e',
'bujhte',
'bujhtii',
'bulaa',
'bulaa))e',
'bulaataa',
'bulandii',
'bulbule;n',
'buraa',
'buraa))ii',
'burdah',
'burii',
'bustaanii',
'butaa;n',
'buu;nd',
'buzurg',
'cha;rh',
'cha;rhii',
'cha;taknaa',
'chaah',
'chaahaa',
'chaahe',
'chaahe;n',
'chaahiye',
'chaahne',
'chaahtaa',
'chaahte',
'chaahuu;n',
'chaal',
'chaalaak',
'chaar',
'chahrah',
'chahre',
'chain',
'chakiidan',
'chakkar',
'chal',
'chalaa',
'chale',
'chale;n',
'chalii',
'chalne',
'chaltaa',
'chaltii',
'chaman',
'chand',
'chande',
'chang',
'charchaa',
'chhalle',
'chhe;r',
'chhe;re',
'chhe;re;nge',
'chhe;riye',
'chhe;ruu;n',
'chhi;rkaa',
'chhi;rke',
'chhi;rke;n',
'chhide',
'chhu;t',
'chhu;taa',
'chhu;tii',
'chhupaa))e',
'chhupaanaa',
'chhupaane',
'chhupnaa',
'chhurii',
'chhuu;taa',
'chhuu;tuu;n',
'chii;xuu;n',
'chiir',
'chiiz',
'chipak',
'chiraa;gaa;n',
'chuke',
'chukii;n',
'chuntaa',
'chup',
'chupke',
'churaanaa',
'da((ve',
'daa))im',
'daab',
'daabte',
'daad',
'daadah',
'daamaa;n',
'daaman',
'daanaa',
'daanah',
'dab',
'dabaa',
'dabii',
'dabistaa;n',
'dafiinah',
'dafn',
'dahaa;n',
'dahr',
'dai',
'dair',
'dandaa;n',
'dara;xshaa;n',
'daraaz',
'daraazii',
'darbaa;n',
'darbaanii',
'dare;g',
'dare;gaa',
'darmaa;ndagii',
'darmiyaa;n',
'daruu;n',
'darvaazah',
'darvesh',
'dashne',
'dastaar',
'dau;raa))e',
'dau;re',
'dau;rte',
'davaa',
'davaam',
'de',
'de;n',
'de;nge',
'dekh',
'dekhaa',
'dekhe',
'dekhe;n',
'dekhii',
'dekhiye',
'dekhnaa',
'dekhne',
'dekhtaa',
'dekhte',
'dekhuu;n',
'denaa',
'dene',
'denii',
'detaa',
'dete',
'dhabbe',
'dhamkii',
'dharaa',
'dhuvaa;n',
'digar',
'dihqaa;n',
'dii',
'diid',
'diigar',
'diije',
'diijiye',
'diivaanah',
'dijlah',
'dikhaa',
'dikhaa))e;n',
'dikhaa))ii',
'dikhaa))uu;ngaa',
'dikhaataa',
'dikhlaa',
'dikhlaa))e;n',
'dikhlaave',
'dilaa',
'dilbar',
'dilbaraa;n',
'dildaar',
'dillagii',
'dillii',
'din',
'diyaa',
'diye',
'du((aa',
'du((aa))e;n',
'dukh',
'dukhte',
'dunyaa',
'durust',
'dushmanii',
'dushnaam',
'dushvaar',
'duu))ii',
'duu;n',
'duunaa',
'duur',
'ek',
'faa))idah',
'faanuus',
'faari;g',
'faarsii',
'fanaa',
'faraa;g',
'faraa;gat',
'faraaham',
'farhaad',
'farishtah',
'farmaatii',
'farmaave;nge',
'farqat',
'fasaa;n',
'fat;h',
'fatiilah',
'faujdaarii',
'fi;gaa;n',
'fidaa',
'figaar',
'fitne',
'fitraak',
'furqat',
'furuu((',
'fusurdagii',
'ga))e',
'ga))ii',
'ga))ii;n',
'ga;nvaa',
'gaaliyaa;n',
'gadaa))ii',
'galii',
'gar',
'garchih',
'garduu;n',
'garebaa;n',
'garebaanii',
'gavaaraa',
'gayaa',
'gaye',
'gaz',
'getii',
'ghaas',
'ghabraa',
'ghabraa))e;n',
'ghabraa))egaa',
'ghabraave;nge',
'ghar',
'ghisegaa',
'ghisne',
'ghistaa',
'ghiste',
'giiraa))ii',
'gilaa',
'gilah',
'gir',
'giraa',
'giraa;n',
'giraanii',
'girdaab',
'girih',
'girii',
'girnii',
'girtaa',
'girye',
'giyaah',
'gudaa;xtah',
'guhar',
'gul;xan',
'guldastah',
'gulfaam',
'gulistaa;n',
'gulshan',
'gulsitaa;n',
'gulzaar',
'gum',
'gumaa;n',
'gunaah',
'gunaahgaar',
'gunah',
'gurezaa;n',
'gustaa;x',
'guu;n',
'guunah',
'guzaaraa',
'guzar',
'guzarnaa',
'guzartaa',
'guzarte',
'guzartii',
'guzashtah',
'guzraa',
'guzre',
'guzrii',
'ha;ns',
'ha;nsii',
'haa))e',
'haa;n',
'haath',
'haay',
'hadyah',
'haft',
'hai',
'hai;n',
'haihaat',
'hajr',
'ham',
'hamaaraa',
'hamaare',
'hamaarii',
'hamah',
'hamdam',
'hame;n',
'hameshah',
'hamvaar',
'hangaame',
'hanuuz',
'har',
'harzah',
'hathka;n;de',
'hay',
'hayuul;aa',
'hazaar',
'hii',
'hijraa;n',
'hilaal',
'hilte',
'hinduustaan',
'hu))aa',
'hu))e',
'hu))ii',
'hu;n',
'humaa',
'hunar',
'hushyaar',
'huu;n',
'huujiye',
'i((tidaal',
'i((tiqaad',
'i:zhaar',
'i;hsaa;n',
'i;sbaat',
'i;xtiyaar',
'ibraam',
'idhar',
'ihtizaaz',
'ii;n',
'iijaad',
'iimaa;n',
'iimaan',
'ijaabat',
'ijaaraa',
'ik',
'ikraam',
'il;aahii',
'iltihaab',
'iltijaa',
'imkaa;n',
'imti;haa;n',
'in',
'in.saaf',
'infa((aal',
'infi((aal',
'inkaar',
'insaa;n',
'insaan',
'inti.zaar',
'inti:zaam',
'inti;xaab',
'intiqaam',
'iqaamat',
'iram',
'is',
'ishaaraa',
'ishaarah',
'ishaarat',
'ishaare',
'itnaa',
'itne',
'itnii',
'itraa))e',
'itraataa',
'ittifaaqii',
'jaa))e',
'jaa))e;n',
'jaa))e;nge',
'jaa))egaa',
'jaa))egii',
'jaa))iye',
'jaa))uu;n',
'jaa;n',
'jaage',
'jaanaa',
'jaanaa;n',
'jaane',
'jaane;n',
'jaanegaa',
'jaaniye',
'jaantaa',
'jaante',
'jaanuu;n',
'jaarii',
'jaataa',
'jaate',
'jaatii',
'jaave',
'jaave;n',
'jaave;nge',
'jaaved',
'jaavidaa;n',
'jab',
'jabii;n',
'jafaa',
'jafaa))e;n',
'jagah',
'jahaa;n',
'jaise',
'jal',
'jalaa',
'jalaane',
'jale',
'jalii',
'jallaad',
'jaltaa',
'jalte',
'jaltii',
'jalve',
'jam',
'jam((a',
'jamshed',
'janaab',
'janaazah',
'janaaze',
'jangal',
'jastah',
'jaulaa;n',
'jaur',
'javaa;n',
'javaab',
'javaanii',
'javvaalah',
'jazaa',
'jhaa;rii',
'jhaga;rte',
'jhukaa',
'jhukne',
'jhuu;t',
'jihat',
'jii',
'jiine',
'jiitaa',
'jiite',
'jin',
'jinnat',
'jis',
'jise',
'jism',
'jitnaa',
'jitne',
'jitnii',
'jiye',
'judaa',
'judaa))ii',
'junuu;n',
'jurm',
'juz',
'ka((bah',
'ka((be',
'ka))ii',
'ka;rii',
'ka;t',
'ka;te',
'ka;tne',
'ka;ttii',
'kaa',
'kaa))ii',
'kaa))inaat',
'kaa;ga;zii',
'kaa;n',
'kaa;te',
'kaafar',
'kaafii',
'kaafir',
'kaamyaab',
'kaan',
'kaar',
'kaarii',
'kaash',
'kaashaane',
'kab',
'kabhii',
'kafan',
'kah',
'kahaa',
'kahaa;n',
'kahaanii',
'kahe',
'kahe;n',
'kahe;nge',
'kahii;n',
'kahiye',
'kahnaa',
'kahne',
'kahtaa',
'kahte',
'kahtii',
'kahuu;n',
'kahve',
'kahve;n',
'kahye',
'kaimuus',
'kaisaa',
'kaise',
'kaisii',
'kal',
'kalaam',
'kalejaa',
'kaliisaa',
'kam',
'kam;xvaab',
'kamaa;n',
'kamaan',
'kamar',
'kamii;n',
'kan((aa;n',
'kandhaa',
'kap;re',
'kar',
'karam',
'kardah',
'kare',
'kare;n',
'kare;nge',
'karishmah',
'karnaa',
'karne',
'kartaa',
'karte',
'kartii',
'karuu;n',
'karuu;ngaa',
'kas',
'kau;sar',
'kaun',
'ke',
'kesh',
'kha;re',
'kha;tkaa',
'kha;tke',
'khaa',
'khaa))e',
'khaa))e;n',
'khaa))ii',
'khaa))iye',
'khaa))uu;n',
'khaanaa',
'khaane',
'khaate',
'khaave;nge',
'khaayaa',
'khai;nche',
'khai;nchtaa',
'khapaataa',
'khare',
'khe;nch',
'khe;nchaa',
'khe;nche',
'khe;nchii',
'khe;nchiye',
'khe;nchtaa',
'khe;nchuu;n',
'khe;nchuu;ngaa',
'khel',
'khet',
'khi;nch',
'khi;nchtaa',
'khil',
'khilne',
'khujaataa',
'khul',
'khulaa',
'khule',
'khulegaa',
'khulii',
'khulnaa',
'khulne',
'khultaa',
'ki',
'kidhar',
'kih',
'kii',
'kiije',
'kiijiye',
'kinaarah',
'kinaare',
'kirishmah',
'kis',
'kise',
'kisii',
'kisliye',
'kitnaa',
'kitne',
'kiyaa',
'kiye',
'kuchh',
'kufr',
'kuhan',
'kujaa',
'kul',
'kulah',
'kunisht',
'kuredte',
'kushaadah',
'kushaayish',
'kushuudah',
'kuuche',
'kuudakii',
'kyaa',
'kyuu;n',
'kyuu;nkar',
'kyuu;nkih',
'la))iim',
'la:taafat',
'la;h:zah',
'la;r',
'la;raa))ii',
'la;rakpan',
'la;riye',
'la;rtaa',
'la;rte',
'laa',
'laa))e',
'laa))ii',
'laa))uu;n',
'laa;gar',
'laag',
...]
In [43]:
[x for x in tokens_remaining if x[-2:]==';n' and x[:-1]+'n' in tokens_remaining]
Out[43]:
[';gariibaa;n',
';gazal-;xvaa;n',
';hairaa;n',
';hazii;n',
';hijraa;n',
';huure;n',
';thahre;n',
';xaa;n',
';xaan-maa;n',
';xastah-jaa;n',
';xiyaabaa;n',
';xizaa;n',
';xuu;n',
';xuu;n-chakaa;n',
';xuu;n-fishaa;n',
';xuu;n-naabah-fishaa;n',
';xuubaa;n',
';xvaahishe;n',
'aa))e;n',
'aa))uu;n',
'aa;nkhe;n',
'aa;zar-fishaa;n',
'aahe;n',
'aarzuu))e;n',
'aasaa;n',
'aashiyaa;n',
'aasmaa;n',
'aastaa;n',
'aastii;n',
'aatishii;n',
'aave;n',
'al-amaa;n',
'amaa;n',
'armu;gaa;n',
'arzaa;n',
'baalii;n',
'baate;n',
'bache;n',
'bai;the;n',
'barii;n',
'bataa))uu;n',
'batlaa))e;n',
'bayaa;n',
'bayaabaa;n',
'bazm-aaraa))iyaa;n',
'be-;hijaabiyaa;n',
'be-karaa;n',
'be-zabaa;n',
'bharuu;n',
'bulbule;n',
'butaa;n',
'chaahe;n',
'chaahuu;n',
'chale;n',
'chhe;ruu;n',
'chhi;rke;n',
'chhuu;tuu;n',
'chii;xuu;n',
'chiraa;gaa;n',
'chukii;n',
'daa;g-saamaa;n',
'daamaa;n',
'dabistaa;n',
'dahaa;n',
'dandaa;n',
'dar-tishnagii-murdagaa;n',
'dara;xshaa;n',
'darbaa;n',
'darmiyaa;n',
'daruu;n',
'dast-gardaa;n',
'de;n',
'dekhe;n',
'dekhuu;n',
'dhuvaa;n',
'dihqaa;n',
'dikhaa))e;n',
'dikhlaa))e;n',
'dil-aashuftagaa;n',
'dil-aazurdagaa;n',
'dil-sitaa;n',
'dilbaraa;n',
'du((aa))e;n',
'duu;n',
'fasaa;n',
'fi;gaa;n',
'ga))ii;n',
'gaaliyaa;n',
'garduu;n',
'garebaa;n',
'ghabraa))e;n',
'giraa;n',
'giraa;n-nishii;n',
'gul-chii;n',
'gulistaa;n',
'gulsitaa;n',
'gumaa;n',
'gurezaa;n',
'guu;n',
'haa;n',
'hai;n',
'ham-nishii;n',
'ham-rahaa;n',
'ham-zabaa;n',
'hame;n',
'hijraa;n',
'hu;n',
'huu;n',
'i;hsaa;n',
'ii;n',
'iimaa;n',
'imkaa;n',
'imti;haa;n',
'insaa;n',
'jaa))e;n',
'jaa))uu;n',
'jaa;n',
'jaa;n-sitaa;n',
'jaanaa;n',
'jaane;n',
'jaanuu;n',
'jaave;n',
'jaavidaa;n',
'jabii;n',
'jafaa))e;n',
'jahaa;n',
'jaulaa;n',
'javaa;n',
'junuu;n',
'junuu;n-jaulaa;n',
'kaa;n',
'kahaa;n',
'kahe;n',
'kahii;n',
'kahuu;n',
'kahve;n',
'kamaa;n',
'kamii;n',
'kan((aa;n',
'kare;n',
'karuu;n',
'khaa))e;n',
'khaa))uu;n',
'khe;nchuu;n',
'kyuu;n',
'laa))uu;n',
'lakiire;n',
'le;n',
'likhuu;n',
'luu;n',
'ma.zaamii;n',
'ma.zmuu;n',
'ma;hfile;n',
'maanuu;n',
'mai-parastaa;n',
'mai;n',
'majnuu;n',
'makaa;n',
'makii;n',
'marjaa;n',
'me;n',
'mihmaa;n',
'mihr-baa;n',
'mihrbaa;n',
'mile;n',
'millate;n',
'mizhgaa;n',
'muflisaa;n',
'musalmaa;n',
'mushkii;n',
'mushkile;n',
'naa-daa;n',
'naa-mihrbaa;n',
'naadaa;n',
'naagahaa;n',
'naalaa;n',
'naazaa;n',
'nahii;n',
'naisitaa;n',
'nakiire;n',
'namak-daa;n',
'nau;hah-;xvaa;n',
'nayastaa;n',
'nigaahe;n',
'nihaa;n',
'niim-jaa;n',
'nishaa;n',
'nisyaa;n',
'nuktah-chii;n',
'nuktah-daa;n',
'numaayaa;n',
'nuq.saa;n',
'nuqsaa;n',
'pa;rii;n',
'pa;ruu;n',
'paa))e;n',
'paa))uu;n',
'paas-baa;n',
'paasbaa;n',
'pahu;nchaa))e;n',
'paikaa;n',
'par-afshaa;n',
'pareshaa;n',
'pareshaaniyaa;n',
'parniyaa;n',
'pashemaa;n',
'phire;n',
'phiruu;n',
'pii;tuu;n',
'pinhaa;n',
'piyuu;n',
'punbah-aagii;n',
'pur-;xuu;n',
'puuchhe;n',
'puuchhuu;n',
'raate;n',
'raaz-daa;n',
'rahe;n',
'rahuu;n',
'rakhuu;n',
'rangii;n',
'ranjishe;n',
'ri.zvaa;n',
'rindaa;n',
'saamaa;n',
'sakuu;n',
'samjhe;n',
'samjhuu;n',
'sangii;n',
'sar-giraa;n',
'sar-mastiyaa;n',
'sar-niguu;n',
'shabistaa;n',
'shabnam-istaa;n',
'shahiidaa;n',
'sham((e;n',
'shiirii;n',
'sitam-zadagaa;n',
'sul:taa;n',
'sulaimaa;n',
'sunaa))uu;n',
'tamkii;n',
'taskii;n',
'thii;n',
'tuhmate;n',
'tumhe;n',
'tumhii;n',
'u;ngliyaa;n',
'u;nhe;n',
'ubhrii;n',
'vaa-maa;ndagiyaa;n',
'vaa;n',
'vaazh-guu;n',
'vafaa-;xvurdagaa;n',
'vahaa;n',
'viiraa;n',
'yaa;n',
'yahaa;n',
'yak-af;gaa;n',
'yak-bayaabaa;n',
'yak-jahaa;n',
'yaqii;n',
'yuu;n',
'zabuu;n',
'zamaa;n',
'zamii;n',
'zindaa;n',
'ziyaa;n',
'zulfe;n',
'zuud-pashemaa;n']
In [92]:
mark_okay_lemmas(ends_with('-e'))
In [93]:
print_stats()
Currently there are 2167 out of 4101
In [94]:
update_files()
Currently there are 2167 out of 4101
In [110]:
ends_with('ah')
Out[110]:
[';gam-kadah',
';hamzah',
';hasrat-zadah',
';hau.salah',
';hau.slah',
';hujrah',
';xaanaqaah',
';xamyaazah',
';xuftah',
';xum-kadah',
';xuu;n-gashtah',
';xuu;n-naabah',
';xvaastah',
';zimmah',
'aab-giinah',
'aablah',
'aaluudah',
'aatish-diidah',
'aatish-kadah',
'aatish-zadah',
'aavaarah',
'aazurdah',
'afsaanah',
'afsurdah',
'al-l;aah',
'asad-ul-l;aah',
'az-dast-raftah',
'baadshaah',
'bad-;xvaah',
'bah',
'bah-;zarrah',
'barjaa-maa;ndah',
'be-.sarfah',
'be-bahrah',
'be-darvaazah',
'be-girah',
'be-gunah',
'be-panaah',
'be-pardah',
'be-shiiraazah',
'burdah',
'but-;xaanah',
'chaah',
'chahrah',
'daad-;xvaah',
'daadah',
'daam-gaah',
'daanah',
'dafiinah',
'dar-pardah',
'darvaazah',
'diivaanah',
'dijlah',
'faa))idah',
'farishtah',
'fatiilah',
'gilah',
'giraa;n-maayah',
'giyaah',
'gudaa;xtah',
'guldastah',
'gum-gashtah',
'gunaah',
'gunah',
'guunah',
'guzashtah',
'hadyah',
'ham-saayah',
'hamah',
'hameshah',
'harzah',
'havaa-;xvaah',
'ishaarah',
'jagah',
'jalvah-gaah',
'janaazah',
'jastah',
'javvaalah',
'ka((bah',
'kah',
'kardah',
'karishmah',
'kinaarah',
'kirishmah',
'kulah',
'kushaadah',
'kushuudah',
'la;h:zah',
'laalah',
'maatam-;xaanah',
'madrasah',
'mar;siyah',
'mardaanah',
'martabah',
'mastaanah',
'mazah',
'mu((aamalah',
'mu((aamilah',
'muqaddamah',
'murdah',
'naa-kardah',
'naa-shiguftah',
'naafah',
'nabard-peshah',
'nah',
'naqshah',
'niim-;gamzah',
'paashnah',
'pah',
'paivastah',
'parii-chahrah',
'parvaanah',
'piyaalah',
'pur-((arbadah',
'qi.s.sah',
'ra;xshindah',
're;xtah',
'rindaanah',
'ruu-siyaah',
'saadah',
'safiinah',
'saiyaarah',
'sang-aamadah',
'shaahinshaah',
'shabaanah',
'shafaq-aaluudah',
'shah',
'shiguftah',
'shikastah',
'sirishk-aaluudah',
'sitam-zadah',
'siyaah',
'siyah',
'sufrah',
'sulaimaa;n-jaah',
'taubah',
'tu;hfah',
'uftaadah',
'va;hshat-kadah',
'vaa-gardiidah',
'vaa-rastah',
'vaah',
'vaaqi((ah',
'vagarnah',
'varnah',
'yagaanah',
'zavaal-aamaadah',
'zindaa;n-;xaanah',
'zindah',
'ziyaadah',
'ziyaarat-kadah']
In [4]:
len(token_search('^be-'))
Out[4]:
53
In [8]:
update_files()
WARNING: nigaah found in okay_lemmas. Will override.
Currently there are 2655 out of 4101
In [10]:
ends_with('q')
Out[10]:
[';xalq',
'aafaaq',
'be-((ishq',
'ma:tlaq',
'naa-;haq',
'nu:tq',
'shafaq',
'shaq',
'taufiiq',
'varaq']
In [47]:
#mark_okay_lemmas(ends_with('q'))
update_tokens_remaining()
update_files()
print_stats()
Currently there are 2936 out of 4101
Currently there are 2936 out of 4101
In [15]:
tokenize_re = re.compile(r"\-\-\-\-|\(\-e\)|\;rh|chh|\-o\-|\;dh|\;th|\;aa|aa|ch|\:z|\)\)|gh|\-e|th|ph|\:n|dh|\(\(|\:t|uu|\.z|au|\;s|\;r|zh|\;t|ai|\;z|\;x|ii|\;d|\;h|\;n|\-\-|bh|jh|\.s|kh|sh|\;g|\ |\(|\,|\:|b|d|f|h|j|l|n|p|r|t|v|z|\!|\'|\)|\-|\;|\?|\[|\]|a|e|g|i|k|m|o|q|s|u|y|.",
re.DOTALL)
def tokenize(s):
return tokenize_re.findall(s)
tokenize('shaan')
Out[15]:
['sh', 'aa', 'n']
In [16]:
left_as_tokens = [tokenize(s) for s in tokens_remaining]
In [25]:
[x for x in left_as_tokens if not x in [t for t in left_as_tokens if len(t)>2 and t[-2]=='t' and t[-1] in ['aa','e','ii']]]
Out[25]:
[['((', 'a', 'r', '.s', 'e'],
['((', 'u', 'h', 'd', 'e'],
['((', 'u', 'q', 'd', 'e'],
[':t', 'a', 'y'],
[':z', 'a', 'n'],
[':z', 'a', 'n', 'n'],
[':z', 'u', 'l', 'm', 'a', 't', '-', 'k', 'a', 'd', 'e'],
[';d', 'aa', 'l'],
[';d', 'aa', 'l', 'aa'],
[';d', 'aa', 'l', 'e', ';n', 'g', 'e'],
[';d', 'aa', 'l', 'i', 'y', 'e'],
[';d', 'a', 'r'],
[';d', 'a', 'r', 'e'],
[';dh', 'aa', ';n', 'p', 'aa'],
[';dh', 'uu', ';n', ';d', 'e'],
[';dh', 'uu', ';n', ';dh', 'aa'],
[';dh', 'uu', ';n', ';dh', 'e'],
[';d', 'uu', 'b', 'ii'],
[';g', 'a', 'm', '-', ';x', 'aa', 'n', 'e'],
[';g', 'a', 'm', '-', ';x', 'v', 'aa', 'r', 'a', 'g', 'ii'],
[';g', 'a', 'm', '-', ';x', 'v', 'aa', 'r', 'ii'],
[';g', 'a', 'm', '-', 'g', 'u', 's', 'aa', 'r'],
[';g', 'a', 'm', '-', 'g', 'u', 's', 'aa', 'r', 'ii'],
[';g', 'a', 'm', '-', 'k', 'a', 'd', 'a', 'h'],
[';g', 'a', 'm', '-', 'n', 'aa', 'k'],
[';g', 'a', 'm', 'm', 'aa', 'z', 'ii'],
[';g', 'a', 'm', 'z', 'e'],
[';g', 'a', 'n', 'ii', 'm', 'a', 't'],
[';g', 'a', 'r', 'ii', 'b'],
[';g', 'a', 'r', 'ii', 'b', '-', 'n', 'a', 'v', 'aa', 'z'],
[';g', 'a', 'r', 'ii', 'b', 'aa', ';n'],
[';g', 'a', 'r', 'ii', 'b', 'ii'],
[';g', 'a', 'sh'],
[';g', 'a', 'y', 'uu', 'r'],
[';g', 'a', 'z', 'aa', 'l'],
[';g', 'a', 'z', 'a', 'l'],
[';g', 'a', 'z', 'a', 'l', '-', ';x', 'v', 'aa', ';n'],
[';g', 'a', 'z', 'a', 'l', '-', ';x', 'v', 'aa', 'n', 'ii'],
[';g', 'a', 'z', 'a', 'l', '-', 's', 'a', 'r', 'aa'],
[';g', 'u', 'n', 'ch', 'e'],
[';g', 'u', 'r', 'b', 'a', 't'],
[';h', 'a', ';z', 'a', 'r'],
[';h', 'aa', '))', 'i', 'l'],
[';h', 'aa', 'j', 'aa', 't'],
[';h', 'aa', 'j', 'a', 't', '-', 'm', 'a', 'n', 'd'],
[';h', 'aa', 'l', 'aa', ';n', 'k', 'i', 'h'],
[';h', 'aa', 'l', 'a', 't'],
[';h', 'a', 'd'],
[';h', 'ai', 'f'],
[';h', 'ai', 'r', 'aa', ';n'],
[';h', 'ai', 'r', 'aa', 'n', 'ii'],
[';h', 'a', 'j'],
[';h', 'a', 'l', 'q', 'e'],
[';h', 'a', 'm', 'm', 'aa', 'm'],
[';h', 'a', 'm', 'z', 'a', 'h'],
[';h', 'a', 'q', '-', 'sh', 'i', 'n', 'aa', 's'],
[';h', 'a', 'r', 'aa', 'm'],
[';h', 'a', 'r', 'a', 'k', 'a', 't'],
[';h', 'a', 'r', 'a', 'm'],
[';h', 'a', 's', 'a', 'd'],
[';h', 'a', 'sh', 'r'],
[';h', 'a', 's', 'r', 'a', 't', '-', 's', 'a', 'n', 'j'],
[';h', 'a', 's', 'r', 'a', 't', '-', 'z', 'a', 'd', 'a', 'h'],
[';h', 'a', 's', 'uu', 'd'],
[';h', 'au', '.s', 'a', 'l', 'a', 'h'],
[';h', 'au', '.s', 'l', 'a', 'h'],
[';h', 'au', '.s', 'l', 'e'],
[';h', 'a', 'v', 'aa', 'd', 'i', ';s'],
[';h', 'a', 'y', 'aa'],
[';h', 'a', 'z', 'ii', ';n'],
[';h', 'ii', 'l', 'e'],
[';h', 'i', 'j', 'r'],
[';h', 'i', 'j', 'r', 'aa', ';n'],
[';h', 'i', 'k', 'm', 'a', 't'],
[';h', 'i', 'n', 'aa', '))', 'ii'],
[';h', 'i', 's', 'aa', 'b'],
[';h', 'u', 'j', 'j', 'a', 't'],
[';h', 'u', 'j', 'r', 'a', 'h'],
[';h', 'u', 'k', 'm'],
[';h', 'u', 's', 'ai', 'n'],
[';h', 'uu', 'r'],
[';h', 'uu', 'r', 'e', ';n'],
[';s', 'aa', 'b', 'i', 't'],
[';s', 'aa', 'n', 'ii'],
[';s', 'a', 'b', 'aa', 't'],
[';t', 'aa', 'l', 'e', ';n', 'g', 'e'],
[';t', 'a', 'p', 'k', 'aa'],
[';t', 'a', 'p', 'k', 'aa', 'n', 'e'],
[';t', 'a', 'p', 'k', 'e'],
[';t', 'e', ';rh', 'aa'],
[';th', 'aa', 'n', 'ii'],
[';th', 'a', 'h', 'r', 'aa'],
[';th', 'a', 'h', 'r', 'e', ';n'],
[';th', 'a', 'n', ';d', 'aa'],
[';t', 'u', 'k', ';r', 'aa'],
[';t', 'uu', ';t'],
[';t', 'uu', ';t', 'e'],
[';x', 'a', ':t', 'aa'],
[';x', 'a', ':t', 'a', 'r'],
[';x', 'aa', ';n'],
[';x', 'aa', 'k', '-', 'a', 'n', 'd', 'aa', 'z'],
[';x',
'aa',
'k',
'i',
's',
't',
'a',
'r',
'-',
'n',
'i',
'sh',
'ii',
'n',
'ii'],
[';x', 'aa', 'l', 'ii'],
[';x', 'aa', 'm'],
[';x', 'aa', 'm', 'a', 'h', '-', 'f', 'a', 'r', 's', 'aa'],
[';x', 'aa', 'm', 'u', 'sh', 'ii'],
[';x', 'aa', 'n', '-', 'm', 'aa', ';n'],
[';x', 'aa', 'n', '-', 'm', 'aa', ';n', '-', ';x', 'a', 'r', 'aa', 'b'],
[';x', 'aa', 'n', 'a', 'h', '-', ';x', 'a', 'r', 'aa', 'b', 'ii'],
[';x', 'aa', 'n', 'a', 'h', '-', 'aa', 'r', 'aa', '))', 'ii'],
[';x',
'aa',
'n',
'a',
'h',
'-',
'v',
'ii',
'r',
'aa',
';n',
'-',
's',
'aa',
'z'],
[';x', 'aa', 'n', 'a', 'h', '-', 'v', 'ii', 'r', 'aa', 'n', 'ii'],
[';x', 'aa', 'n', 'a', 'q', 'aa', 'h'],
[';x', 'aa', 'r', 'aa'],
[';x', 'aa', 'sh', 'aa', 'k'],
[';x', 'a', 'b', 'a', 'r'],
[';x', 'a', 'f', 'aa'],
[';x', 'a', 'f', 'aa', '))', 'ii'],
[';x', 'a', 'f', 'a', 'q', 'aa', 'n', 'ii'],
[';x', 'ai', 'r'],
[';x', 'ai', 'r', '-', 'b', 'aa', 'd'],
[';x', 'a', 'j', 'aa', 'l', 'a', 't'],
[';x', 'a', 'l', 'a', 'l'],
[';x', 'a', 'l', 'q'],
[';x', 'a', 'm', 'y', 'aa', 'z', 'a', 'h'],
[';x', 'a', 'n', 'j', 'a', 'r'],
[';x', 'a', 'n', 'j', 'a', 'r', '-', 'aa', 'z', 'm', 'aa'],
[';x', 'a', 'r', 'aa', 'b', 'aa', 't'],
[';x', 'a', 'r', 'aa', 'b', 'ii'],
[';x', 'a', 's', 't', 'a', 'g', 'ii'],
[';x', 'a', 's', 't', 'a', 'h', '-', 'j', 'aa', ';n'],
[';x', 'a', 's', 't', 'a', 'h', '-', 't', 'a', 'n'],
[';x', 'a', 't', 'm'],
[';x', 'a', 'y', 'aa', 'l', 'ii'],
[';x', 'e', 'm', 'e'],
[';x', 'i', '.z', 'r'],
[';x', 'i', ';z', 'r'],
[';x', 'i', 'r', 'a', 'd'],
[';x', 'i', 's', 's', 'a', 't'],
[';x', 'i', 'y', 'aa', 'b', 'aa', ';n'],
[';x', 'i', 'z', 'aa', ';n'],
[';x', 'u', 'd', 'aa'],
[';x', 'u', 'd', 'aa', '))', 'ii'],
[';x', 'u', 'd', 'aa', '-', 'p', 'a', 'r', 'a', 's', 't'],
[';x', 'u', 'd', 'aa', '-', 's', 'aa', 'z'],
[';x', 'u', 'f', 't', 'a', 'h'],
[';x', 'u', 'l', 'd'],
[';x', 'u', 'm', '-', 'k', 'a', 'd', 'a', 'h'],
[';x', 'u', 'sh', 'k'],
[';x', 'u', 's', 'r', 'au'],
[';x', 'uu', '-', 'g', 'a', 'r'],
[';x', 'uu', ';n'],
[';x', 'uu', ';n', '-', 'b', 'a', 'h', 'aa'],
[';x', 'uu', ';n', '-', 'ch', 'a', 'k', 'aa', ';n'],
[';x', 'uu', ';n', '-', 'f', 'i', 'sh', 'aa', ';n'],
[';x', 'uu', ';n', '-', 'g', 'a', 'sh', 't', 'a', 'h'],
[';x', 'uu', ';n', '-', 'n', 'aa', 'b'],
[';x', 'uu', ';n', '-', 'n', 'aa', 'b', 'a', 'h'],
[';x',
'uu',
';n',
'-',
'n',
'aa',
'b',
'a',
'h',
'-',
'f',
'i',
'sh',
'aa',
';n'],
[';x',
'uu',
';n',
'-',
'n',
'aa',
'b',
'a',
'h',
'-',
'f',
'i',
'sh',
'aa',
'n',
'ii'],
[';x',
'uu',
';n',
'-',
'n',
'aa',
'b',
'a',
'h',
'-',
'm',
'a',
'sh',
'r',
'a',
'b'],
[';x', 'uu', ';n', '-', 'r', 'e', 'z'],
[';x', 'uu', 'b'],
[';x', 'uu', 'b', 'aa', ';n'],
[';x', 'v', 'aa', 'b', '-', 'n', 'aa', 'k'],
[';x', 'v', 'aa', 'h', 'i', 'sh'],
[';x', 'v', 'aa', 'h', 'i', 'sh', 'e', ';n'],
[';x', 'v', 'aa', 'r', 'ii'],
[';x', 'v', 'aa', 's', 't', 'a', 'h'],
[';x', 'v', 'u', 'd'],
[';x', 'v', 'u', 'd', '-', 'aa', 'r', 'aa'],
[';x', 'v', 'u', 'd', '-', 'aa', 'r', 'aa', '))', 'ii'],
[';x', 'v', 'u', 'd', 'aa'],
[';x', 'v', 'u', 'r'],
[';x', 'v', 'u', 'r', 'sh', 'e', 'd'],
[';x', 'v', 'u', 'r', 'sh', 'ii', 'd', '-', 'j', 'a', 'm', 'aa', 'l'],
[';x', 'v', 'u', 'sh'],
[';x', 'v', 'u', 'sh', '-', ';h', 'aa', 'l'],
[';x', 'v', 'u', 'sh', 'aa'],
[';x', 'v', 'u', 'sh', 'ii'],
[';x', 'v', 'u', 'sh', 't', 'a', 'r'],
[';z', 'aa', 'h', 'i', 'r'],
[';z', 'aa', 't'],
[';z', 'a', 'h', 'n'],
[';z', 'a', 'l', 'ii', 'l'],
[';z', 'a', 'r', 'aa'],
[';z', 'a', 'r', 'r', 'e'],
[';z', 'au', 'q', '-', 'f', 'i', 'z', 'aa'],
[';z', 'i', 'k', 'r'],
[';z', 'i', 'l', 'l', 'a', 't'],
[';z', 'i', 'm', 'm', 'a', 'h'],
['a', '((', '.z', 'aa'],
['a', '((', ':z', 'a', 'm'],
['a', '((', 'm', 'aa', 'r'],
['a', ':t', 'f', 'aa', 'l'],
['a', ';g', 'y', 'aa', 'r'],
['a', ';h', 'b', 'aa', 'b'],
['a', ';h', 'r', 'aa', 'm'],
['a', ';n', 'dh', 'e', 'r', 'ii'],
['a', ';x', 't', 'a', 'r'],
['a', ';x', 't', 'a', 'r', '-', 'sh', 'u', 'm', 'aa', 'r', 'ii'],
['aa'],
['aa', '))', 'e'],
['aa', '))', 'e', ';n'],
['aa', '))', 'e', ';n', 'g', 'e'],
['aa', '))', 'ii'],
['aa', '))', 'ii', 'n', 'a', 'h', '-', ';x', 'aa', 'n', 'e'],
['aa', '))', 'ii', 'n', 'a', 'h', '-', 'd', 'aa', 'r', 'ii'],
['aa', '))', 'ii', 'n', 'e'],
['aa', '))', 'i', 'n', 'a', 'h', '-', ';x', 'aa', 'n', 'e'],
['aa', '))', 'i', 'n', 'a', 'h', '-', 'd', 'aa', 'r'],
['aa', '))', 'i', 'n', 'a', 'h', '-', 'p', 'a', 'r', 'd', 'aa', 'z'],
['aa', '))', 'i', 'n', 'a', 'h', '-', 's', 'ii', 'm', 'aa'],
['aa', '))', 'i', 'n', 'e'],
['aa', '))', 'uu', ';n'],
['aa', ';n', 'kh'],
['aa', ';n', 'kh', 'e', ';n'],
['aa', ';x', 'i', 'r'],
['aa', ';z', 'a', 'r', '-', 'f', 'i', 'sh', 'aa', ';n'],
['aa', 'b', '-', 'd', 'aa', 'r'],
['aa', 'b', '-', 'g', 'ii', 'n', 'a', 'h'],
['aa', 'b', 'aa', 'd', 'ii'],
['aa', 'b', 'i', 'l', 'a', 'h', '-', 'p', 'aa'],
['aa', 'b', 'l', 'a', 'h'],
['aa', 'd', 'a', 'm'],
['aa', 'd', 'm', 'ii'],
['aa', 'f', 'aa', 'q'],
['aa', 'f', 'i', 'r', 'ii', 'n', 'i', 'sh'],
['aa', 'f', 't', 'aa', 'b', '-', 'p', 'a', 'r', 'a', 's', 't'],
['aa', 'g'],
['aa', 'g', 'a', 'h', 'ii'],
['aa', 'g', 'e'],
['aa', 'h', 'a', 'n'],
['aa', 'h', 'e', ';n'],
['aa', 'j'],
['aa', 'l', 'uu', 'd', 'a', 'h'],
['aa', 'n'],
['aa', 'n', 'aa'],
['aa', 'n', 'e'],
['aa', 'p'],
['aa', 'r', 'aa', 'm'],
['aa', 'r', 'a', 'm', 'ii', 'd', 'a', 'g', 'ii'],
['aa', 'r', 'e'],
['aa', 'r', 'z', 'uu', '))', 'e', ';n'],
['aa', 'r', 'z', 'uu', '-', ';x', 'i', 'r', 'aa', 'm', 'ii'],
['aa', 's'],
['aa', 's', 'aa', '))', 'i', 'sh'],
['aa', 's', 'aa', ';n'],
['aa', 'sh', 'i', 'y', 'aa', ';n'],
['aa', 'sh', 'i', 'y', 'aa', 'n'],
['aa', 'sh', 'n', 'aa', '))', 'ii'],
['aa', 'sh', 'u', 'f', 't', 'a', 'g', 'ii'],
['aa', 'sh', 'u', 'f', 't', 'a', 'h', '-', 'b', 'a', 'y', 'aa', 'n', 'ii'],
['aa', 'sh', 'u', 'f', 't', 'a', 'h', '-', 'n', 'a', 'v', 'aa'],
['aa', 'sh', 'u', 'f', 't', 'a', 'h', '-', 's', 'a', 'r'],
['aa', 's', 'm', 'aa', ';n'],
['aa', 's', 'm', 'aa', 'n'],
['aa', 's', 'm', 'aa', 'n', 'ii'],
['aa', 's', 't', 'aa', ';n'],
['aa', 's', 't', 'ii', ';n'],
['aa', 't', 'i', 'sh', '-', 'a', 'f', 'sh', 'aa', 'n', 'ii'],
['aa', 't', 'i', 'sh', '-', 'b', 'aa', 'r'],
['aa', 't', 'i', 'sh', '-', 'd', 'ii', 'd', 'a', 'h'],
['aa', 't', 'i', 'sh', '-', 'k', 'a', 'd', 'a', 'h'],
['aa', 't', 'i', 'sh', '-', 'n', 'a', 'f', 'a', 's'],
['aa', 't', 'i', 'sh', '-', 'p', 'a', 'r', 'a', 's', 't'],
['aa', 't', 'i', 'sh', '-', 'z', 'a', 'd', 'a', 'h'],
['aa', 't', 'i', 'sh', 'ii', ';n'],
['aa', 'v', 'aa', 'r', 'a', 'g', 'ii'],
['aa', 'v', 'aa', 'r', 'a', 'h'],
['aa', 'v', 'aa', 'z'],
['aa', 'v', 'e'],
['aa', 'v', 'e', ';n'],
['aa', 'v', 'e', ';n', 'g', 'e'],
['aa', 'y', 'aa'],
['aa', 'y', 'e'],
['aa', 'z', 'aa', 'd'],
['aa', 'z', 'm', 'aa', '))', 'e'],
['aa', 'z', 'm', 'aa', '))', 'i', 'sh'],
['aa', 'z', 'm', 'aa', 'n', 'aa'],
['aa', 'z', 'm', 'aa', 'n', 'e'],
['aa', 'z', 'u', 'r', 'd', 'a', 'h'],
['a', 'b'],
['a', 'bh', 'ii'],
['a', 'b', 'j', 'a', 'd'],
['a', 'ch', 'chh', 'aa'],
['a', 'ch', 'chh', 'e'],
['a', 'd', 'a', 'b'],
['a', 'f', '((', 'ii'],
['a', 'f', 'g', 'aa', 'r'],
['a', 'f', 's', 'aa', 'n', 'a', 'h'],
['a', 'f', 'sh', 'u', 'r', 'd', 'a', 'n'],
['a', 'f', 's', 'u', 'r', 'd', 'a', 'h'],
['a', 'f', 's', 'uu', 's'],
['a', 'g', 'a', 'r'],
['a', 'g', 'a', 'r', 'ch', 'i', 'h'],
['a', 'g', 'l', 'e'],
['a', 'h', 'a', 'm'],
['ai', 's', 'aa'],
['ai', 's', 'e'],
['ai', 's', 'ii'],
['a', 'k', ';s', 'a', 'r'],
['a', 'k', 'b', 'a', 'r'],
['a', 'l', '-', 'a', 'm', 'aa', ';n'],
['a', 'l', '-', 'b', 'a', ';h', 'r'],
['a', 'l', '-', 'h', 'a', 'v', 'a', 's'],
['a', 'l', '-', 'l', ';aa', 'h'],
['a', 'l', 'i', 'f'],
['a', 'l', 'm', 'aa', 's'],
['a', 'm', 'aa', ';n'],
['a', 'm', 'n'],
['a', 'n', 'aa'],
['a', 'n', 'd', 'aa', 'z', 'e'],
['a', 'n', 'd', 'a', 'r'],
['a', 'n', 'd', 'e', 'sh', 'e'],
['a', 'n', 'dh', 'e', 'r'],
['a', 'n', 'g', 'e', 'z'],
['a', 'n', 'g', 'uu', 'r'],
['a', 'p', 'n', 'aa'],
['a', 'p', 'n', 'aa', '-', 's', 'aa'],
['a', 'p', 'n', 'e'],
['a', 'p', 'n', 'ii'],
['a', 'r', 'm', 'aa', 'n'],
['a', 'r', 'm', 'u', ';g', 'aa', ';n'],
['a', 'r', 'z', 'aa', ';n'],
['a', 's', 'aa', 'm', 'ii'],
['a', 's', 'a', 'd', '-', 'u', 'l', '-', 'l', ';aa', 'h'],
['a', 'sh', '((', 'aa', 'r'],
['a', 'sh', 'k', '-', 'b', 'aa', 'r', 'ii'],
['a', 'sh', 'y', 'aa'],
['a', 's', 'ii', 'r'],
['a', 's', 'ii', 'r', 'ii'],
['au', 'r'],
['a', 'y'],
['a', 'y', 'aa', ';g'],
['a', 'z'],
['a', 'z', '-', 'b', 'a', 's', 'k', 'i', 'h'],
['a', 'z', '-', 'd', 'a', 's', 't', '-', 'r', 'a', 'f', 't', 'a', 'h'],
['a', 'z', 'a', 'l'],
['b', 'a', '((', 'ii', 'd'],
['b', 'a', ';g', 'a', 'l'],
['b', 'a', ';n', 'dh', 'aa'],
['b', 'a', ';n', 'dh', 'e'],
['b', 'a', ';rh'],
['b', 'a', ';x', 'sh'],
['b', 'a', ';x', 'sh', 'e'],
['b', 'a', ';x', 'y', 'e'],
['b', 'aa'],
['b', 'aa', '))', 'i', ';s'],
['b', 'aa', '-', 'h', 'a', 'm', '-', 'd', 'i', 'g', 'a', 'r'],
['b', 'aa', ':t', 'i', 'l'],
['b', 'aa', ':t', 'i', 'n'],
['b', 'aa', ';g', '-', 'b', 'aa', 'n'],
['b', 'aa', ';n', 'dh'],
['b', 'aa', ';n', 'dh', 'aa'],
['b', 'aa', ';n', 'dh', 'e'],
['b', 'aa', ';n', 'dh', 'i', 'y', 'e'],
['b', 'aa', ';x', 't', 'a', 'n'],
['b', 'aa', 'd', '-', 'p', 'e', 'm', 'aa', '))', 'ii'],
['b', 'aa', 'd', 'a', 'h', '-', ';x', 'v', 'aa', 'r'],
['b', 'aa', 'd', 'a', 'h', '-', 'aa', 'sh', 'aa', 'm', 'ii'],
['b', 'aa', 'd', 'sh', 'aa', 'h'],
['b', 'aa', 'g'],
['b', 'aa', 'h', 'a', 'r'],
['b', 'aa', 'j', 'aa'],
['b', 'aa', 'l', '-', 'k', 'u', 'sh', 'aa'],
['b', 'aa', 'l', 'ii', ';n'],
['b', 'aa', 'm'],
['b', 'aa', 'n', 'ii'],
['b', 'aa', 'q', 'ii'],
['b', 'aa', 'r', '-', 'h', 'aa'],
['b', 'aa', 'r', 'e'],
['b', 'aa', 'r', 'i', 'sh'],
['b', 'aa', 't'],
['b', 'aa', 't', 'e', ';n'],
['b', 'aa', 'v', 'a', 'r'],
['b', 'aa', 'z'],
['b', 'aa', 'z', '-', 'g', 'a', 'sh', 't'],
['b', 'a', 'ch', 'e', ';n'],
['b', 'a', 'd', 'a', 'l', 'n', 'e'],
['b', 'a', 'd', 'ii'],
['b', 'a', 'd', 'l', 'aa'],
['b', 'a', 'd', 'l', 'e'],
['b', 'a', 'd', 'r'],
['b', 'a', 'h'],
['b', 'a', 'h', '-', ';z', 'a', 'r', 'r', 'a', 'h'],
['b', 'a', 'h', 'aa', '))', 'ii'],
['b', 'a', 'h', 'aa', 'n', 'e'],
['b', 'a', 'h', 'aa', 'r', 'ii'],
['b', 'a', 'h', 'a', 'm'],
['b', 'a', 'h', 'n', 'e'],
['b', 'a', 'h', 'r', 'aa'],
['b', 'a', 'h', 't', 'a', 'r'],
['b', 'a', 'h', 'u', 't'],
['b', 'ai', '.z', 'a', 'h', '-', 'aa', 's', 'aa'],
['b', 'ai', ';th'],
['b', 'ai', ';th', 'aa'],
['b', 'ai', ';th', 'e'],
['b', 'ai', ';th', 'e', ';n'],
['b', 'ai', ';th', 'i', 'y', 'e'],
['b', 'ai', ';th', 'n', 'aa'],
['b', 'a', 'k'],
['b', 'a', 'l', ';g', 'a', 'm', 'ii'],
['b', 'a', 'r', 'aa', '))', 'e'],
['b', 'a', 'r', 'ii', ';n'],
['b', 'a', 'r', 'j', 'aa', '-', 'm', 'aa', ';n', 'd', 'a', 'h'],
['b', 'a', 'r', 'q', '-', ';x', 'i', 'r', 'aa', 'm'],
['b', 'a', 'r', 's', 'aa', 't'],
['b', 'a', 'r', 'sh', '-', 'k', 'aa', 'l'],
['b', 'a', 's'],
['b', 'a', 'sh', 'a', 'r'],
['b', 'a', 's', 'k', 'i', 'h'],
['b', 'a', 't', 'aa', '))', 'uu', ';n'],
['b', 'a', 't', 'l', 'aa'],
['b', 'a', 't', 'l', 'aa', '))', 'e', ';n'],
['b', 'a', 'y', 'aa', ';n'],
['b', 'a', 'y', 'aa', 'b', 'aa', ';n'],
['b', 'a', 'z', 'm', '-', 'aa', 'r', 'aa', '))', 'i', 'y', 'aa', ';n'],
['b', 'e'],
['b', 'e', '-', '((', 'i', 'sh', 'q'],
['b', 'e', '-', '.s', 'a', 'd', 'aa'],
['b', 'e', '-', '.s', 'a', 'r', 'f', 'a', 'h'],
['b', 'e', '-', ':t', 'a', 'l', 'a', 'b'],
['b', 'e', '-', ';h', 'aa', '.s', 'i', 'l'],
['b', 'e', '-', ';h', 'au', '.s', 'l', 'a', 'g', 'ii'],
['b', 'e', '-', ';h', 'i', 'j', 'aa', 'b', 'i', 'y', 'aa', ';n'],
['b', 'e', '-', ';h', 'i', 's'],
['b', 'e', '-', ';x', 'a', 'b', 'a', 'r'],
['b', 'e', '-', ';x', 'v', 'aa', 'b'],
['b', 'e', '-', ';x', 'v', 'aa', 'b', 'ii'],
['b', 'e', '-', 'a', ';s', 'a', 'r'],
['b', 'e', '-', 'b', 'aa', 'k'],
['b', 'e', '-', 'b', 'a', 'h', 'r', 'a', 'h'],
['b', 'e', '-', 'b', 'u', 'n', 'y', 'aa', 'd'],
['b', 'e', '-', 'ch', 'ai', 'n'],
['b', 'e', '-', 'd', 'aa', 'd', '-', 'f', 'a', 'n'],
['b', 'e', '-', 'd', 'a', 'r'],
['b', 'e', '-', 'd', 'a', 'r', 'v', 'aa', 'z', 'a', 'h'],
['b', 'e', '-', 'd', 'a', 'v', 'aa'],
['b', 'e', '-', 'd', 'i', 'l', 'ii'],
['b', 'e', '-', 'd', 'i', 'm', 'aa', ';g'],
['b', 'e', '-', 'd', 'i', 'm', 'aa', ';g', 'ii'],
['b', 'e', '-', 'g', 'i', 'r', 'a', 'h'],
['b', 'e', '-', 'g', 'u', 'n', 'a', 'h'],
['b', 'e', '-', 'j', 'aa'],
['b', 'e', '-', 'j', 'u', 'r', 'm'],
['b', 'e', '-', 'k', 'a', ';s', 'aa', 'f', 'a', 't'],
['b', 'e', '-', 'k', 'a', 'f', 'a', 'n'],
['b', 'e', '-', 'k', 'a', 'r', 'aa', ';n'],
['b', 'e', '-', 'm', 'ai'],
['b', 'e', '-', 'm', 'a', 'z', 'aa'],
['b', 'e', '-', 'm', 'i', 'h', 'r'],
['b', 'e', '-', 'm', 'u', ';h', 'aa', 'b', 'aa'],
['b', 'e', '-', 'm', 'u', 'd', 'd', 'a', '((', 'aa'],
['b', 'e', '-', 'n', 'i', 'y', 'aa', 'z', 'ii'],
['b', 'e', '-', 'p', 'a', 'n', 'aa', 'h'],
['b', 'e', '-', 'p', 'a', 'r', 'd', 'a', 'h'],
['b', 'e', '-', 'p', 'a', 'r', 'v', 'aa'],
['b', 'e', '-', 'q', 'a', 'r', 'aa', 'r'],
['b', 'e', '-', 'q', 'a', 'r', 'aa', 'r', 'ii'],
['b', 'e', '-', 's', 'a', 'b', 'a', 'b'],
['b', 'e', '-', 's', 'a', 'v', 'aa', 'l'],
['b', 'e', '-', 'sh', 'a', 'm', '((', 'a'],
['b', 'e', '-', 'sh', 'ii', 'r', 'aa', 'z', 'a', 'h'],
['b', 'e', '-', 't', 'aa', 'b', 'ii'],
['b', 'e', '-', 't', 'a', 'k', 'a', 'l', 'l', 'u', 'f'],
['b', 'e', '-', 'v', 'a', 'f', 'aa'],
['b', 'e', '-', 'v', 'a', 'f', 'aa', '))', 'ii'],
['b', 'e', '-', 'z', 'aa', 'r'],
['b', 'e', '-', 'z', 'a', 'b', 'aa', ';n'],
['b', 'e', '-', 'z', 'a', 'b', 'aa', 'n', 'ii'],
['b', 'e', 'd'],
['b', 'e', 'd', 'aa', 'd', '-', 'g', 'a', 'r'],
['b', 'e', 'd', 'a', 'r', 'd'],
['b', 'e', 'd', 'i', 'l'],
['b', 'e', 'k', 'aa', 'r'],
['b', 'e', 'q', 'a', 'r', 'aa', 'r', 'ii'],
['b', 'e', 'sh'],
['b', 'e', 't', 'aa', 'b'],
['b', 'e', 't', 'aa', 'b', 'ii'],
['b', 'e', 'v', 'a', 'f', 'aa'],
['bh', 'aa', '))', 'ii'],
['bh', 'aa', 'g', 'aa'],
['bh', 'aa', 'g', 'e'],
['bh', 'aa', 'g', 'e', ';n', 'g', 'e'],
['bh', 'aa', 'g', 'n', 'e'],
['bh', 'a', 'l', 'aa'],
['bh', 'a', 'l', 'e'],
['bh', 'a', 'r'],
['bh', 'a', 'r', 'a', 'm'],
['bh', 'a', 'r', 'e'],
['bh', 'a', 'r', 'n', 'e'],
['bh', 'a', 'r', 'uu', ';n'],
['bh', 'e', 'd'],
['bh', 'e', 's'],
['bh', 'ii'],
['bh', 'uu', 'k', 'e'],
['bh', 'uu', 'l'],
['bh', 'uu', 'l', 'aa'],
['bh', 'uu', 'l', 'e'],
['b', 'i', 'chh', 'aa', '))', 'e'],
['b', 'i', 'g', 'a', ';r'],
['b', 'i', 'g', 'a', ';r', 'n', 'aa'],
['b', 'i', 'h', 'i', 'sh', 't'],
['b', 'i', 'h', 'i', 'sh', 't', '-', 'sh', 'a', 'm', 'aa', '))', 'i', 'l'],
['b', 'ii', 'm', 'aa', 'r', '-', 'd', 'aa', 'r'],
['b', 'ii', 'n', 'aa'],
['b', 'ii', 'n', 'aa', '))', 'ii'],
['b', 'ii', 'n', 'i', 'sh'],
['b', 'i', 'j', 'l', 'ii'],
['b', 'i', 'k'],
['b', 'i', 'kh', 'a', 'r'],
['b', 'i', 'n'],
['b', 'i', 's', 'm', 'i', 'l'],
['b', 'u', '((', 'd'],
['b', 'u', 'jh', 'aa'],
['b', 'u', 'jh', 'aa', '))', 'e'],
['b', 'u', 'l', 'aa'],
['b', 'u', 'l', 'aa', '))', 'e'],
['b', 'u', 'l', 'a', 'n', 'd', 'ii'],
['b', 'u', 'l', 'b', 'u', 'l', 'e', ';n'],
['b', 'u', 'r', 'aa'],
['b', 'u', 'r', 'aa', '))', 'ii'],
['b', 'u', 'r', 'd', 'a', 'h'],
['b', 'u', 'r', 'ii'],
['b', 'u', 's', 't', 'aa', 'n', 'ii'],
['b', 'u', 't', '-', ';x', 'aa', 'n', 'a', 'h'],
['b', 'u', 't', '-', ';x', 'aa', 'n', 'e'],
['b', 'u', 't', '-', 'k', 'a', 'd', 'e'],
['b', 'u', 't', '-', 'sh', 'i', 'k', 'a', 'n', 'ii'],
['b', 'u', 't', 'aa', ';n'],
['b', 'uu', '-', "'", 'l', '-', 'h', 'a', 'v', 'a', 's'],
['b', 'uu', '-', 't', 'u', 'r', 'aa', 'b'],
['b', 'uu', ';n', 'd'],
['b', 'u', 'z', 'u', 'r', 'g'],
['ch', 'a', ';rh'],
['ch', 'a', ';rh', 'ii'],
['ch', 'a', ';t', 'a', 'k', 'n', 'aa'],
['ch', 'aa', 'h'],
['ch', 'aa', 'h', 'aa'],
['ch', 'aa', 'h', 'e'],
['ch', 'aa', 'h', 'e', ';n'],
['ch', 'aa', 'h', 'i', 'y', 'e'],
['ch', 'aa', 'h', 'n', 'e'],
['ch', 'aa', 'h', 'n', 'e', '-', 'v', 'aa', 'l', 'aa'],
['ch', 'aa', 'h', 'uu', ';n'],
['ch', 'aa', 'l'],
['ch', 'aa', 'l', 'aa', 'k'],
['ch', 'aa', 'r'],
['ch', 'aa', 'r', '-', 'd', 'u', 'h', 'a', 'm'],
['ch', 'aa', 'r', '-', 'm', 'au', 'j'],
['ch', 'aa', 'r', 'a', 'h', '-', 'g', 'a', 'r'],
['ch', 'aa', 'r', 'a', 'h', '-', 'j', 'uu', '))', 'ii'],
['ch', 'aa', 'r', 'a', 'h', '-', 's', 'aa', 'z'],
['ch', 'a', 'h', 'r', 'a', 'h'],
['ch', 'a', 'h', 'r', 'e'],
['ch', 'ai', 'n'],
['ch', 'a', 'k', 'ii', 'd', 'a', 'n'],
['ch', 'a', 'k', 'k', 'a', 'r'],
['ch', 'a', 'l'],
['ch', 'a', 'l', 'aa'],
['ch', 'a', 'l', 'e'],
['ch', 'a', 'l', 'e', ';n'],
['ch', 'a', 'l', 'ii'],
['ch', 'a', 'l', 'n', 'e'],
['ch', 'a', 'm', 'a', 'n'],
['ch', 'a', 'n', 'd'],
['ch', 'a', 'n', 'd', 'e'],
['ch', 'a', 'n', 'g'],
['ch', 'a', 'r', 'ch', 'aa'],
['ch', 'a', 'sh', 'm', '-', 'n', 'u', 'm', 'aa', '))', 'ii'],
['chh', 'a', 'l', 'l', 'e'],
['chh', 'e', ';r'],
['chh', 'e', ';r', 'e'],
['chh', 'e', ';r', 'e', ';n', 'g', 'e'],
['chh', 'e', ';r', 'i', 'y', 'e'],
['chh', 'e', ';r', 'uu', ';n'],
['chh', 'i', ';r', 'k', 'aa'],
['chh', 'i', ';r', 'k', 'e'],
['chh', 'i', ';r', 'k', 'e', ';n'],
['chh', 'i', 'd', 'e'],
['chh', 'u', ';t'],
['chh', 'u', ';t', 'aa'],
['chh', 'u', ';t', 'ii'],
['chh', 'u', 'p', 'aa', '))', 'e'],
['chh', 'u', 'p', 'aa', 'n', 'aa'],
['chh', 'u', 'p', 'aa', 'n', 'e'],
['chh', 'u', 'p', 'n', 'aa'],
['chh', 'u', 'r', 'ii'],
['chh', 'uu', ';t', 'aa'],
['chh', 'uu', ';t', 'uu', ';n'],
['ch', 'ii', ';x', 'uu', ';n'],
['ch', 'ii', 'r'],
['ch', 'ii', 'z'],
['ch', 'i', 'p', 'a', 'k'],
['ch', 'i', 'r', 'aa', ';g', 'aa', ';n'],
['ch', 'u', 'k', 'e'],
['ch', 'u', 'k', 'ii', ';n'],
['ch', 'u', 'p'],
['ch', 'u', 'p', 'k', 'e'],
['ch', 'u', 'r', 'aa', 'n', 'aa'],
['d', 'a', '((', 'v', 'e'],
['d', 'aa', '))', 'i', 'm'],
['d', 'aa', '))', 'i', 'm', '-', 'u', 'l', '-', ';h', 'a', 'b', 's'],
['d', 'aa', ';g', '-', 's', 'aa', 'm', 'aa', ';n'],
['d', 'aa', 'b'],
['d', 'aa', 'd'],
['d', 'aa', 'd', '-', ';x', 'v', 'aa', 'h'],
['d', 'aa', 'd', 'a', 'h'],
['d', 'aa', 'm', '-', 'g', 'aa', 'h'],
['d', 'aa', 'm', 'aa', ';n'],
['d', 'aa', 'm', 'a', 'n'],
['d', 'aa', 'm', 'a', 'n', '-', 'a', 'f', 'sh', 'aa', 'n', 'ii'],
['d', 'aa', 'n', 'aa'],
['d', 'aa', 'n', 'a', 'h'],
['d', 'a', 'b'],
['d', 'a', 'b', 'aa'],
['d', 'a', 'b', 'ii'],
['d', 'a', 'b', 'i', 's', 't', 'aa', ';n'],
['d', 'a', 'f', 'ii', 'n', 'a', 'h'],
['d', 'a', 'f', 'n'],
['d', 'a', 'h', 'aa', ';n'],
['d', 'a', 'h', 'r'],
['d', 'ai'],
['d', 'ai', 'r'],
['d', 'a', 'n', 'd', 'aa', ';n'],
['d', 'a', 'n', 'd', 'aa', ';n', '-', 'n', 'u', 'm', 'aa'],
['d', 'a', 'r', '-', ';x', 'v', 'a', 'r'],
['d', 'a', 'r', '-', 'k', 'aa', 'r'],
['d', 'a', 'r', '-', 'm', 'aa', ';n', 'd', 'a', 'g', 'ii'],
['d', 'a', 'r', '-', 'p', 'a', 'r', 'd', 'a', 'h'],
['d',
'a',
'r',
'-',
't',
'i',
'sh',
'n',
'a',
'g',
'ii',
'-',
'm',
'u',
'r',
'd',
'a',
'g',
'aa',
';n'],
['d', 'a', 'r', 'a', ';x', 'sh', 'aa', ';n'],
['d', 'a', 'r', 'aa', 'z'],
['d', 'a', 'r', 'aa', 'z', 'ii'],
['d', 'a', 'r', 'b', 'aa', ';n'],
['d', 'a', 'r', 'b', 'aa', 'n', 'ii'],
['d', 'a', 'r', 'd', '-', 'm', 'a', 'n', 'd'],
['d', 'a', 'r', 'e', ';g'],
['d', 'a', 'r', 'e', ';g', 'aa'],
['d', 'a', 'r', 'm', 'aa', ';n', 'd', 'a', 'g', 'ii'],
['d', 'a', 'r', 'm', 'i', 'y', 'aa', ';n'],
['d', 'a', 'r', 'uu', ';n'],
['d', 'a', 'r', 'v', 'aa', 'z', 'a', 'h'],
['d', 'a', 'r', 'v', 'e', 'sh'],
['d', 'a', 'r', 'y', 'aa', '-', 'aa', 'sh', 'n', 'aa'],
['d', 'a', 'sh', 'n', 'e'],
['d', 'a', 'sh', 't', '-', 'n', 'a', 'v', 'a', 'r', 'd', 'ii'],
['d', 'a', 's', 't', '-', 'g', 'a', 'r', 'd', 'aa', ';n'],
['d', 'a', 's', 't', '-', 'g', 'ii', 'r', 'ii'],
['d', 'a', 's', 't', 'aa', 'r'],
['d', 'au', ';r', 'aa', '))', 'e'],
['d', 'au', ';r', 'e'],
['d', 'a', 'v', 'aa'],
['d', 'a', 'v', 'aa', 'm'],
['d', 'e'],
['d', 'e', ';n'],
['d', 'e', ';n', 'g', 'e'],
['d', 'e', 'kh'],
['d', 'e', 'kh', 'aa'],
['d', 'e', 'kh', 'e'],
['d', 'e', 'kh', 'e', ';n'],
['d', 'e', 'kh', 'ii'],
['d', 'e', 'kh', 'i', 'y', 'e'],
['d', 'e', 'kh', 'n', 'aa'],
['d', 'e', 'kh', 'n', 'e'],
['d', 'e', 'kh', 'uu', ';n'],
['d', 'e', 'n', 'aa'],
['d', 'e', 'n', 'e'],
['d', 'e', 'n', 'ii'],
['dh', 'a', 'b', 'b', 'e'],
['dh', 'a', 'm', 'k', 'ii'],
['dh', 'a', 'r', 'aa'],
['dh', 'au', 'l', '-', 'dh', 'a', 'p', 'p', 'aa'],
['dh', 'u', 'v', 'aa', ';n'],
['d', 'i', 'g', 'a', 'r'],
['d', 'i', 'h', 'q', 'aa', ';n'],
['d', 'ii'],
['d', 'ii', ';n', '-', 'd', 'aa', 'r'],
['d', 'ii', 'd'],
['d', 'ii', 'g', 'a', 'r'],
['d', 'ii', 'j', 'e'],
['d', 'ii', 'j', 'i', 'y', 'e'],
['d', 'ii', 'v', 'aa', 'n', 'a', 'h'],
['d', 'i', 'j', 'l', 'a', 'h'],
['d', 'i', 'kh', 'aa'],
['d', 'i', 'kh', 'aa', '))', 'e', ';n'],
['d', 'i', 'kh', 'aa', '))', 'ii'],
['d', 'i', 'kh', 'aa', '))', 'uu', ';n', 'g', 'aa'],
['d', 'i', 'kh', 'l', 'aa'],
['d', 'i', 'kh', 'l', 'aa', '))', 'e', ';n'],
['d', 'i', 'kh', 'l', 'aa', 'v', 'e'],
['d', 'i', 'l', '-', 'aa', 'sh', 'u', 'f', 't', 'a', 'g', 'aa', ';n'],
['d', 'i', 'l', '-', 'aa', 'z', 'aa', 'r'],
['d', 'i', 'l', '-', 'aa', 'z', 'u', 'r', 'd', 'a', 'g', 'aa', ';n'],
['d', 'i', 'l', '-', 'b', 'a', 'r', 'ii'],
['d', 'i', 'l', '-', 'b', 'a', 's', 't', 'a', 'g', 'ii'],
['d', 'i', 'l', '-', 'd', 'aa', 'r'],
['d', 'i', 'l', '-', 'j', 'a', 'm', '((', 'ii'],
['d', 'i', 'l', '-', 'k', 'a', 'sh'],
['d', 'i', 'l', '-', 'k', 'u', 'sh', 'aa'],
['d', 'i', 'l', '-', 'l', 'a', 'g', 'ii'],
['d', 'i', 'l', '-', 'p', 'a', ';z', 'ii', 'r'],
['d', 'i', 'l', '-', 's', 'i', 't', 'aa', ';n'],
['d', 'i', 'l', '-', 's', 'i', 't', 'aa', 'n', 'ii'],
['d', 'i', 'l', 'aa'],
['d', 'i', 'l', 'b', 'a', 'r'],
['d', 'i', 'l', 'b', 'a', 'r', 'aa', ';n'],
['d', 'i', 'l', 'd', 'aa', 'r'],
['d', 'i', 'l', 'l', 'a', 'g', 'ii'],
['d', 'i', 'l', 'l', 'ii'],
['d', 'i', 'n'],
['d', 'i', 'y', 'aa'],
['d', 'i', 'y', 'e'],
['d', 'u', '((', 'aa'],
['d', 'u', '((', 'aa', '))', 'e', ';n'],
['d', 'u', 'kh'],
['d', 'u', 'n', 'y', 'aa'],
['d', 'u', 'r', 'u', 's', 't'],
['d', 'u', 'sh', 'm', 'a', 'n', 'ii'],
['d', 'u', 'sh', 'n', 'aa', 'm'],
['d', 'u', 'sh', 'v', 'aa', 'r'],
['d', 'u', 'sh', 'v', 'aa', 'r', '-', 'p', 'a', 's', 'a', 'n', 'd'],
['d', 'uu', '))', 'ii'],
['d', 'uu', ';n'],
['d', 'uu', 'n', 'aa'],
['d', 'uu', 'r'],
['d', 'uu', 'r', '-', 'd', 'a', 'r', 'aa', 'z'],
['e', 'k'],
['e', 'k', '-', 's', 'aa'],
['f', 'aa', '))', 'i', 'd', 'a', 'h'],
['f', 'aa', 'n', 'uu', 's'],
['f', 'aa', 'r', 'i', ';g'],
['f', 'aa', 'r', 's', 'ii'],
['f', 'a', 'n', 'aa'],
['f', 'a', 'r', 'aa', ';g'],
['f', 'a', 'r', 'aa', ';g', 'a', 't'],
['f', 'a', 'r', 'aa', 'h', 'a', 'm'],
['f', 'a', 'r', 'h', 'aa', 'd'],
['f', 'a', 'r', 'i', 'sh', 't', 'a', 'h'],
['f', 'a', 'r', 'm', 'aa', 'v', 'e', ';n', 'g', 'e'],
['f', 'a', 'r', 'q', 'a', 't'],
['f', 'a', 's', 'aa', ';n'],
['f', 'a', 't', ';h'],
['f', 'a', 't', 'ii', 'l', 'a', 'h'],
['f', 'au', 'j', 'd', 'aa', 'r', 'ii'],
['f', 'i', ';g', 'aa', ';n'],
['f', 'i', 'd', 'aa'],
['f', 'i', 'g', 'aa', 'r'],
['f', 'i', 't', 'n', 'e'],
['f', 'i', 't', 'r', 'aa', 'k'],
['f', 'u', 'r', 'q', 'a', 't'],
['f', 'u', 'r', 'uu', '(('],
['f', 'u', 's', 'u', 'r', 'd', 'a', 'g', 'ii'],
['f', 'u', 's', 'uu', ';n', '-', 'g', 'a', 'r'],
['g', 'a', '))', 'e'],
['g', 'a', '))', 'ii'],
['g', 'a', '))', 'ii', ';n'],
['g', 'a', ';n', 'v', 'aa'],
['g', 'aa', 'l', 'i', 'y', 'aa', ';n'],
['g', 'a', 'd', 'aa', '))', 'ii'],
['g',
'a',
'h',
'v',
'aa',
'r',
'a',
'h',
'-',
'j',
'u',
'n',
'b',
'aa',
'n',
'ii'],
['g', 'a', 'l', 'ii'],
['g', 'a', 'r'],
['g', 'a', 'r', 'ch', 'i', 'h'],
['g', 'a', 'r', 'd', 'uu', ';n'],
['g', 'a', 'r', 'e', 'b', 'aa', ';n'],
['g', 'a', 'r', 'e', 'b', 'aa', 'n', 'ii'],
['g', 'a', 'v', 'aa', 'r', 'aa'],
['g', 'a', 'y', 'aa'],
['g', 'a', 'y', 'e'],
['g', 'a', 'z'],
['gh', 'aa', 's'],
['gh', 'a', 'b', 'r', 'aa'],
['gh', 'a', 'b', 'r', 'aa', '))', 'e', ';n'],
['gh', 'a', 'b', 'r', 'aa', '))', 'e', 'g', 'aa'],
['gh', 'a', 'b', 'r', 'aa', 'v', 'e', ';n', 'g', 'e'],
['gh', 'a', 'r'],
['gh', 'i', 's', 'e', 'g', 'aa'],
['gh', 'i', 's', 'n', 'e'],
['g', 'ii', 'r', 'aa', '))', 'ii'],
['g', 'i', 'l', 'aa'],
['g', 'i', 'l', 'a', 'h'],
['g', 'i', 'r'],
['g', 'i', 'r', 'aa'],
['g', 'i', 'r', 'aa', ';n'],
['g', 'i', 'r', 'aa', ';n', '-', 'j', 'aa', 'n', 'ii'],
['g', 'i', 'r', 'aa', ';n', '-', 'm', 'aa', 'y', 'a', 'h'],
['g', 'i', 'r', 'aa', ';n', '-', 'n', 'i', 'sh', 'ii', ';n'],
['g', 'i', 'r', 'aa', 'n', 'ii'],
['g', 'i', 'r', 'a', 'h', '-', 'k', 'u', 'sh', 'aa'],
['g', 'i', 'r', 'd', 'aa', 'b'],
['g', 'i', 'r', 'i', 'h'],
['g', 'i', 'r', 'ii'],
['g', 'i', 'r', 'n', 'ii'],
['g', 'i', 'r', 'y', 'e'],
['g', 'i', 'y', 'aa', 'h'],
['g', 'u', 'd', 'aa', ';x', 't', 'a', 'h'],
['g', 'u', 'h', 'a', 'r'],
['g', 'u', 'h', 'a', 'r', '-', 'b', 'aa', 'r'],
['g', 'u', 'l', '-', 'b', 'aa', 'z'],
['g', 'u', 'l', '-', 'ch', 'ii', ';n'],
['g', 'u', 'l', '-', 'f', 'i', 'sh', 'aa', 'n', 'ii'],
['g', 'u', 'l', '-', 'k', 'a', 't', 'a', 'r'],
['g', 'u', 'l', ';x', 'a', 'n'],
['g', 'u', 'l', 'd', 'a', 's', 't', 'a', 'h'],
['g', 'u', 'l', 'f', 'aa', 'm'],
['g', 'u', 'l', 'i', 's', 't', 'aa', ';n'],
['g', 'u', 'l', 'sh', 'a', 'n'],
['g', 'u', 'l', 's', 'i', 't', 'aa', ';n'],
['g', 'u', 'l', 'z', 'aa', 'r'],
['g', 'u', 'm'],
['g', 'u', 'm', '-', 'g', 'a', 'sh', 't', 'a', 'h'],
['g', 'u', 'm', 'aa', ';n'],
['g', 'u', 'n', 'aa', 'h'],
['g', 'u', 'n', 'aa', 'h', 'g', 'aa', 'r'],
['g', 'u', 'n', 'a', 'h'],
['g', 'u', 'r', 'e', 'z', '-', 'p', 'aa'],
['g', 'u', 'r', 'e', 'z', 'aa', ';n'],
['g', 'u', 's', 't', 'aa', ';x'],
['g', 'uu', ';n'],
['g', 'uu', 'n', 'a', 'h'],
['g', 'u', 'z', 'aa', 'r', 'aa'],
['g', 'u', 'z', 'a', 'r'],
['g', 'u', 'z', 'a', 'r', 'n', 'aa'],
['g', 'u', 'z', 'a', 'sh', 't', 'a', 'h'],
['g', 'u', 'z', 'r', 'aa'],
['g', 'u', 'z', 'r', 'e'],
['g', 'u', 'z', 'r', 'ii'],
['h', 'a', ';n', 's'],
['h', 'a', ';n', 's', 'ii'],
['h', 'aa', '))', 'e'],
['h', 'aa', ';n'],
['h', 'aa', 'th'],
['h', 'aa', 'y'],
['h', 'a', 'd', 'y', 'a', 'h'],
['h', 'a', 'f', 't'],
['h', 'ai'],
['h', 'ai', ';n'],
['h', 'ai', 'h', 'aa', 't'],
['h', 'a', 'j', 'r'],
['h', 'a', 'l', '-', 'm', 'i', 'n', '-', 'm', 'a', 'z', 'ii', 'd'],
['h', 'a', 'm'],
['h', 'a', 'm', '-', 'd', 'a', 'm', 'ii'],
['h', 'a', 'm', '-', 'd', 'ii', 'g', 'a', 'r'],
['h', 'a', 'm', '-', 'n', 'i', 'sh', 'ii', ';n'],
['h', 'a', 'm', '-', 'r', 'a', 'h', 'aa', ';n'],
['h', 'a', 'm', '-', 's', 'aa'],
['h', 'a', 'm', '-', 's', 'aa', 'y', 'a', 'h'],
['h', 'a', 'm', '-', 's', 'aa', 'y', 'e'],
['h', 'a', 'm', '-', 's', 'a', 'f', 'a', 'r'],
['h', 'a', 'm', '-', 's', 'u', ';x', 'a', 'n'],
['h', 'a', 'm', '-', 'z', 'a', 'b', 'aa', ';n'],
['h', 'a', 'm', 'aa', 'r', 'aa'],
['h', 'a', 'm', 'aa', 'r', 'e'],
['h', 'a', 'm', 'aa', 'r', 'ii'],
['h', 'a', 'm', 'a', 'h'],
['h', 'a', 'm', 'd', 'a', 'm'],
['h', 'a', 'm', 'e', ';n'],
['h', 'a', 'm', 'e', 'sh', 'a', 'h'],
['h', 'a', 'm', 'v', 'aa', 'r'],
['h', 'a', 'n', 'g', 'aa', 'm', 'a', 'h', '-', 'aa', 'r', 'aa'],
['h', 'a', 'n', 'g', 'aa', 'm', 'e'],
['h', 'a', 'n', 'uu', 'z'],
['h', 'a', 'r'],
['h', 'a', 'r', '-', 'ch', 'a', 'n', 'd'],
['h', 'a', 'r', 'z', 'a', 'h'],
['h', 'a', 'th', 'k', 'a', ';n', ';d', 'e'],
['h', 'a', 'v', 'aa', '-', ';x', 'v', 'aa', 'h'],
['h', 'a', 'v', 'aa', '-', ';x', 'v', 'aa', 'h', 'ii'],
['h', 'a', 'y'],
['h', 'a', 'y', 'uu', 'l', ';aa'],
['h', 'a', 'z', 'aa', 'r'],
['h', 'e', 'ch', '-', 'm', 'a', 'd', 'aa', 'n', 'ii'],
['h', 'ii'],
['h', 'i', 'j', 'r', 'aa', ';n'],
['h', 'i', 'l', 'aa', 'l'],
['h', 'i', 'n', 'd', 'uu', 's', 't', 'aa', 'n'],
['h', 'u', '))', 'aa'],
['h', 'u', '))', 'e'],
['h', 'u', '))', 'ii'],
['h', 'u', ';n'],
['h', 'u', 'm', 'aa'],
['h', 'u', 'n', 'a', 'r'],
['h', 'u', 'sh', 'y', 'aa', 'r'],
['h', 'uu', ';n'],
['h', 'uu', 'j', 'i', 'y', 'e'],
['i', '((', 't', 'i', 'd', 'aa', 'l'],
['i', '((', 't', 'i', 'q', 'aa', 'd'],
['i', ':z', 'h', 'aa', 'r'],
['i', ';h', 's', 'aa', ';n'],
['i', ';s', 'b', 'aa', 't'],
['i', ';x', 't', 'i', 'y', 'aa', 'r'],
['i', 'b', 'r', 'aa', 'm'],
['i', 'dh', 'a', 'r'],
['i', 'h', 't', 'i', 'z', 'aa', 'z'],
['ii', ';n'],
['ii', 'j', 'aa', 'd'],
['ii', 'm', 'aa', ';n'],
['ii', 'm', 'aa', 'n'],
['i', 'j', 'aa', 'b', 'a', 't'],
['i', 'j', 'aa', 'r', 'aa'],
['i', 'k'],
['i', 'k', 'r', 'aa', 'm'],
['i', 'l', ';aa', 'h', 'ii'],
['i', 'l', 't', 'i', 'h', 'aa', 'b'],
['i', 'l', 't', 'i', 'j', 'aa'],
['i', 'm', 'k', 'aa', ';n'],
['i', 'm', 't', 'i', ';h', 'aa', ';n'],
['i', 'n'],
['i', 'n', '.s', 'aa', 'f'],
['i', 'n', 'f', 'a', '((', 'aa', 'l'],
['i', 'n', 'f', 'i', '((', 'aa', 'l'],
['i', 'n', 'k', 'aa', 'r'],
['i', 'n', 's', 'aa', ';n'],
['i', 'n', 's', 'aa', 'n'],
['i', 'n', 't', 'i', '.z', 'aa', 'r'],
['i', 'n', 't', 'i', ':z', 'aa', 'm'],
['i', 'n', 't', 'i', ';x', 'aa', 'b'],
['i', 'n', 't', 'i', 'q', 'aa', 'm'],
['i', 'q', 'aa', 'm', 'a', 't'],
['i', 'r', 'a', 'm'],
['i', 's'],
['i', 'sh', 'aa', 'r', 'aa'],
['i', 'sh', 'aa', 'r', 'a', 'h'],
['i', 'sh', 'aa', 'r', 'a', 't'],
['i', 'sh', 'aa', 'r', 'e'],
['i', 'sh', 't', 'i', 'y', 'aa', 'q', '-', 'a', 'n', 'g', 'e', 'z'],
['i', 't', 'n', 'aa'],
['i', 't', 'n', 'e'],
['i', 't', 'n', 'ii'],
['i', 't', 'r', 'aa', '))', 'e'],
['i', 't', 't', 'i', 'f', 'aa', 'q', 'ii'],
['j', 'aa', '))', 'e'],
['j', 'aa', '))', 'e', ';n'],
['j', 'aa', '))', 'e', ';n', 'g', 'e'],
['j', 'aa', '))', 'e', 'g', 'aa'],
['j', 'aa', '))', 'e', 'g', 'ii'],
['j', 'aa', '))', 'i', 'y', 'e'],
['j', 'aa', '))', 'uu', ';n'],
['j', 'aa', ';n'],
['j', 'aa', ';n', '-', 'f', 'i', 'z', 'aa'],
['j', 'aa', ';n', '-', 'g', 'u', 'd', 'aa', 'z'],
['j', 'aa', ';n', '-', 'g', 'u', 's', 'i', 'l'],
['j', 'aa', ';n', '-', 's', 'i', 'p', 'aa', 'r', 'ii'],
['j', 'aa', ';n', '-', 's', 'i', 't', 'aa', ';n'],
['j', 'aa', ';n', '-', 's', 'i', 't', 'aa', ';n', '-', 't', 'a', 'r'],
['j', 'aa', 'g', 'e'],
['j', 'aa', 'n', 'aa'],
['j', 'aa', 'n', 'aa', ';n'],
['j', 'aa', 'n', 'e'],
['j', 'aa', 'n', 'e', ';n'],
['j', 'aa', 'n', 'e', 'g', 'aa'],
['j', 'aa', 'n', 'i', 'y', 'e'],
['j', 'aa', 'n', 'uu', ';n'],
['j', 'aa', 'r', 'ii'],
['j', 'aa', 'v', 'e'],
['j', 'aa', 'v', 'e', ';n'],
['j', 'aa', 'v', 'e', ';n', 'g', 'e'],
['j', 'aa', 'v', 'e', 'd'],
['j', 'aa', 'v', 'i', 'd', 'aa', ';n'],
['j', 'a', 'b'],
['j', 'a', 'b', 'ii', ';n'],
['j', 'a', 'f', 'aa'],
['j', 'a', 'f', 'aa', '))', 'e', ';n'],
['j', 'a', 'g', 'a', 'h'],
['j', 'a', 'h', 'aa', ';n'],
['j', 'a', 'h', 'aa', ';n', '-', 't', 'aa', 'b'],
['j', 'ai', 's', 'e'],
['j', 'a', 'l'],
['j', 'a', 'l', 'aa'],
['j', 'a', 'l', 'aa', 'n', 'e'],
['j', 'a', 'l', 'e'],
['j', 'a', 'l', 'ii'],
['j', 'a', 'l', 'l', 'aa', 'd'],
['j', 'a', 'l', 'v', 'a', 'h', '-', 'f', 'a', 'r', 'm', 'aa', '))', 'ii'],
['j', 'a', 'l', 'v', 'a', 'h', '-', 'g', 'aa', 'h'],
['j', 'a', 'l', 'v', 'a', 'h', '-', 'g', 'a', 'r'],
['j', 'a', 'l', 'v', 'a', 'h', '-', 'g', 'a', 'r', 'ii'],
['j', 'a', 'l', 'v', 'a', 'h', '-', 'n', 'u', 'm', 'aa'],
['j', 'a', 'l', 'v', 'e'],
['j', 'a', 'm'],
['j', 'a', 'm', '((', 'a'],
['j', 'a', 'm', 'sh', 'e', 'd'],
['j', 'a', 'n', 'aa', 'b'],
['j', 'a', 'n', 'aa', 'z', 'a', 'h'],
['j', 'a', 'n', 'aa', 'z', 'e'],
['j', 'a', 'n', 'g', 'a', 'l'],
['j', 'a', 's', 't', 'a', 'h'],
['j', 'au', 'l', 'aa', ';n'],
['j', 'au', 'r'],
['j', 'a', 'v', 'aa', ';n'],
['j', 'a', 'v', 'aa', ';n', '-', 'm', 'a', 'r', 'g'],
['j', 'a', 'v', 'aa', 'b'],
['j', 'a', 'v', 'aa', 'n', 'ii'],
['j', 'a', 'v', 'v', 'aa', 'l', 'a', 'h'],
['j', 'a', 'z', 'aa'],
['jh', 'aa', ';r', 'ii'],
['jh', 'u', 'k', 'aa'],
['jh', 'u', 'k', 'n', 'e'],
...]
In [28]:
[''.join(x) for x in left_as_tokens if '-' in x and x[-1]=='e']
Out[28]:
[':zulmat-kade',
';gam-;xaane',
'aa))iinah-;xaane',
'aa))inah-;xaane',
'but-;xaane',
'but-kade',
'ham-saaye',
'kaash-ke',
'kaun-se',
'mai-;xaane',
'sar-naame',
'sharaab-;xaane']
In [49]:
mark_okay_lemmas(ends_with('-e'))
In [51]:
ends_with('ah')
Out[51]:
[';gam-kadah',
';hamzah',
';hasrat-zadah',
';hau.salah',
';hau.slah',
';hujrah',
';xaanaqaah',
';xamyaazah',
';xuftah',
';xum-kadah',
';xuu;n-gashtah',
';xuu;n-naabah',
';xvaastah',
'aatish-diidah',
'aatish-kadah',
'aatish-zadah',
'aavaarah',
'al-l;aah',
'asad-ul-l;aah',
'az-dast-raftah',
'bah',
'bah-;zarrah',
'barjaa-maa;ndah',
'burdah',
'chaah',
'chahrah',
'daad-;xvaah',
'daadah',
'daam-gaah',
'daanah',
'dafiinah',
'dar-pardah',
'darvaazah',
'diivaanah',
'dijlah',
'guldastah',
'gum-gashtah',
'gunaah',
'gunah',
'hadyah',
'hamah',
'hameshah',
'havaa-;xvaah',
'ishaarah',
'jalvah-gaah',
'janaazah',
'jastah',
'javvaalah',
'kah',
'kardah',
'karishmah',
'kulah',
'kushaadah',
'kushuudah',
'la;h:zah',
'laalah',
'mar;siyah',
'mardaanah',
'martabah',
'muqaddamah',
'murdah',
'nabard-peshah',
'naqshah',
'niim-;gamzah',
'paashnah',
'pah',
'paivastah',
'parii-chahrah',
'parvaanah',
'piyaalah',
'pur-((arbadah',
'ra;xshindah',
're;xtah',
'rindaanah',
'ruu-siyaah',
'saadah',
'safiinah',
'saiyaarah',
'sang-aamadah',
'shaahinshaah',
'shabaanah',
'shafaq-aaluudah',
'shah',
'shiguftah',
'shikastah',
'sirishk-aaluudah',
'sitam-zadah',
'siyaah',
'siyah',
'sufrah',
'sulaimaa;n-jaah',
'taubah',
'tu;hfah',
'uftaadah',
'yagaanah',
'zavaal-aamaadah',
'zindaa;n-;xaanah',
'zindah',
'ziyaadah',
'ziyaarat-kadah']
In [52]:
update_files()
Currently there are 2942 out of 4101
In [ ]:
Content source: seanpue/ghalib-concordance
Similar notebooks: